scrapy
Gooooa
这个作者很懒,什么都没留下…
展开
-
Scrapy在采集网页时使用随机user-agent
随机生成User-agent:更改User-agent能够防止一些403或者400的错误,基本上属于每个爬虫都会写的。这里我们可以重写scrapy 里的middleware,让程序每次请求都随机获取一个User-agent,增大隐蔽性。在settings.py中添加以下代码:DOWNLOADER_MIDDLEWARES = { 'guazi2.middlewares.MyCustomDown转载 2017-06-22 17:25:03 · 1424 阅读 · 0 评论 -
Scrapy爬虫框架使用IP代理池
一、手动更新IP池方法一:1.在settings配置文件中新增IP池:IPPOOL=[ {"ipaddr":"61.129.70.131:8080"}, {"ipaddr":"61.152.81.193:9100"}, {"ipaddr":"120.204.85.29:3128"}, {"ipaddr":"219.228.126.86:8123"},转载 2017-07-05 15:34:21 · 14401 阅读 · 0 评论 -
Scrapy爬虫架构图解
这就是整个Scrapy的架构图了;Scrapy Engine: 这是引擎,负责Spiders、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等等!(像不像人的身体?)Scheduler(调度器): 它负责接受引擎发送过来的requests请求,并按照一定的方式进行整理排列,入队、并等待Scrapy Engine(引擎)来请求时,交给引擎。Download转载 2017-06-22 16:16:52 · 5217 阅读 · 4 评论