爬虫
京局京段蓝白猪
这个作者很懒,什么都没留下…
展开
-
Python3爬虫小程序——爬取各类天气信息(3)
经过前面静态页面的爬取已经收集到很多信息了。最近在看怎么从动态页面上爬取信息,主要用到的还是selenium+phantomJS工具(如何安装?点击这里查看),虽然存在一些缺点(效率不是很高),但是还算不错。于是乎,前面从天气网(http://www.tianqi.com/)上爬信息的我,转到了中国天气网(http://www.weather.com.cn/)。但是目前爬取数据存在一定问题...原创 2017-06-15 15:09:53 · 5701 阅读 · 3 评论 -
Python3爬虫小程序——爬取各类天气信息(4)
【爬取动态页面的数据】更新:已上传到我的GitHub上,点击打开链接上一次讲到用工具对动态页面进行数据爬取,但是感觉难度不小,而且运行效率简直低下。。。于是乎从网上查资料,有好多说可以通过获取网站的json数据来进行动态页面爬取,然后我就找到气象数据权威——中央气象台的官网(http://www.nmc.cn/),开始数据的爬取。然后怎么去找这个json数据呢?在后台开着抓包软件F...原创 2017-06-19 15:18:20 · 8295 阅读 · 0 评论 -
Python3爬虫小程序——爬取各类天气信息(2)
【静态页面信息的爬取】更新:有关代码已上传到我的GitHub上,点击打开链接根据前面做的那个爬虫,进行了一些修改,例如对headers信息的伪装。通过利用Fiddler抓包软件,抓到headers信息,然后构造我们的头信息进行爬虫设计。抓包抓到的数据如下图所示:Client中就是我们需要构造的信息,部分构造代码如下所示:#模拟成浏览器headers={"Accept"...原创 2017-06-14 11:19:12 · 2266 阅读 · 3 评论 -
Python3爬虫小程序——爬取各类天气信息
本来是想从网上找找有没有现成的爬取空气质量状况和天气情况的爬虫程序,结果找了一会儿感觉还是自己写一个吧。主要是爬取北京包括北京周边省会城市的空气质量数据和天气数据。过程中出现了一个错误:UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa1 in position 250。原来发现是页面的编码是gbk,把语句改成data=url...原创 2017-06-02 16:01:19 · 10639 阅读 · 3 评论