![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python爬虫
kkbb8811
人问寒山道,寒山路不通。
展开
-
用Python写网络爬虫系列(二)------数据获取
在系列(一)中我们已经知道了怎么样去访问一个网站,我们写爬虫的目的是什么?就是为了获取数据。那么知道怎么样把网页下载下来之后我们进一步的要对网站上的数据进行采集。我使用的工具主要有三个,正则表达式、lxml、Beautifulsoup 目标网站以及目标数据:http://example.webscraping.com/view/United-Kingdom-239 数据:这个国家的国土面积是多原创 2017-01-04 17:05:10 · 468 阅读 · 0 评论 -
用Python写网络爬虫系列(一)
从两个新认识的包说起:builtwith,whois。所使用的Anaconda 4.1.1没有预设这两个包。所以需要自己加入导入方法:pip install builtwith 用来导入builtwith 。pip install python-whois 这两个包有什么作用。用来做什么? builtwith:用来查看某个网站使用的是什么样的技术代码示例: import builtwith原创 2016-12-30 21:32:08 · 688 阅读 · 0 评论 -
用Python写网络爬虫系列(三)表单处理
import urllib,urllib2 LOGIN_URL = r'http://example.webscraping.com/user/login' LOGIN_EMAIL = 'kkbb8811@qq.com' LOGIN_PASSWORD ='qq123456' data ={'email':LOGIN_EMAIL,'password':LOGIN_PASSWORD} encoded原创 2017-02-15 12:35:06 · 1906 阅读 · 0 评论 -
抓取虎扑王者荣耀板块最近十页帖子,2.5W回帖数据 ,来看看JR们都有哪些有趣的信息
数据说明:王者荣耀区最近十页的发帖,每个帖子内的第一页用户的个人信息 主题帖:王者荣耀区十页大概是有800个帖子。我抓取了这些帖子的主题,并且对关键词进行了抽取。根据jieba分词包(一个软件包)对这800个主题进行分析后,去除掉一些常用的无实意的词后。得出19个关键字为:王者,英雄,战队,荣耀,单排,KPL,赛季,打野,射手,皮肤,胜率,上分,攻略,春季,裴擒虎,出装,刘邦,大家,主播,大家最原创 2018-03-03 12:22:03 · 788 阅读 · 0 评论