爬虫
dragonguai
好奇心很强体育很好的彩笔程序员
展开
-
python爬虫——urllib2库的安装及使用
urllib2库的基本使用所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 在Python中有很多库可以用来抓取网页,我们先学习urllib2。urllib2 是 Python2.7 自带的模块(不需要下载,导入即可使用)urllib2 官方文档:https://docs.python.org/2/library/urllib2.htmlurllib2 ...原创 2018-12-11 11:42:12 · 3035 阅读 · 0 评论 -
使用Scrapy-redis实现分布式爬取
Scrapy是一个比较好用的Python爬虫框架,你只需要编写几个组件就可以实现网页数据的爬取。但是当我们要爬取的页面非常多的时候,单个主机的处理能力就不能满足我们的需求了(无论是处理速度还是网络请求的并发数),这时候分布式爬虫的优势就显现出来。而Scrapy-Redis则是一个基于Redis的Scrapy分布式组件。它利用Redis对用于爬取的请求(Requests)进行存储和调度(Schedu...转载 2018-06-11 10:00:28 · 571 阅读 · 0 评论