Python Scrapy框架速率优化

本文讨论了Python Scrapy框架在处理IO密集型任务时的速率优化问题。由于Python的GIL限制,Scrapy的多线程效果有限,但可以通过调整CONCURRENT_REQUESTS增加请求并行数来提高效率。此外,降低TIMEOUT,自定义高效的link extractor,考虑使用gevent进行异步操作,以及分布式爬虫策略,都是提高Scrapy爬取速率的有效方法。
摘要由CSDN通过智能技术生成

 先来个图镇楼(图片源自网络,侵权立删)

  1. scrapy基于twisted异步IO框架,downloader是多线程的。但是,由于python使用GIL(全局解释器锁,保证同时只有一个线程在使用解释器),这极大限制了并行性,在处理运算密集型程序的时候,Python的多线程效果很差,而如果开多个线程进行耗时的IO操作时,Python的多线程才能发挥出更大的作用。(因为Python在进行长时IO操作时会释放GIL)所以简单的说,scrapy是多线程的,不许要再设置了,由于目前版本python的特性,多线程地不是很完全,但实际测试scrapy效率还可以。

    因为Python GIL的存在,scrapy无论如何设置都是单线程的。Scrapy里默认是10线程的设置是指的Twisted的线程,可以用来并行处理DNS之类的。但上面这些都不重要,因为爬虫是IO密集型的操作,所以只要有并发就可以了,无论是利用协程,callback还是其他方式实现并发。所以你要修改的不是线程数目而是Scrapy里request的并行数,只要这个数目大了一般速度都会增快,如果并行大了速度却没有提升,可能是DOWNLOAD_DELAY太大了,或者用了blocking的pipeline,等等原因

  2. 在 settings.py 里把 TIMEOUT 设小点
  3. 提高并发数( CONCURRENT_REQ
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>