Python Scrapy框架速率优化

最新推荐文章于 2020-11-11 15:03:26 发布

二次元肥宅

最新推荐文章于 2020-11-11 15:03:26 发布

阅读量1.9k

点赞数 4

分类专栏： scrapy 文章标签： scrapy python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40566294/article/details/87457349

版权

本文讨论了Python Scrapy框架在处理IO密集型任务时的速率优化问题。由于Python的GIL限制，Scrapy的多线程效果有限，但可以通过调整CONCURRENT_REQUESTS增加请求并行数来提高效率。此外，降低TIMEOUT，自定义高效的link extractor，考虑使用gevent进行异步操作，以及分布式爬虫策略，都是提高Scrapy爬取速率的有效方法。

摘要由CSDN通过智能技术生成

先来个图镇楼（图片源自网络，侵权立删）

scrapy基于twisted异步IO框架，downloader是多线程的。但是，由于python使用GIL（全局解释器锁，保证同时只有一个线程在使用解释器），这极大限制了并行性，在处理运算密集型程序的时候，Python的多线程效果很差，而如果开多个线程进行耗时的IO操作时，Python的多线程才能发挥出更大的作用。（因为Python在进行长时IO操作时会释放GIL）所以简单的说，scrapy是多线程的，不许要再设置了，由于目前版本python的特性，多线程地不是很完全，但实际测试scrapy效率还可以。

因为Python GIL的存在，scrapy无论如何设置都是单线程的。Scrapy里默认是10线程的设置是指的Twisted的线程，可以用来并行处理DNS之类的。但上面这些都不重要，因为爬虫是IO密集型的操作，所以只要有并发就可以了，无论是利用协程，callback还是其他方式实现并发。所以你要修改的不是线程数目而是Scrapy里request的并行数，只要这个数目大了一般速度都会增快，如果并行大了速度却没有提升，可能是DOWNLOAD_DELAY太大了，或者用了blocking的pipeline，等等原因
在 settings.py 里把 TIMEOUT 设小点
提高并发数（ CONCURRENT_REQ

最低0.47元/天解锁文章

二次元肥宅 CSDN认证博客专家 CSDN认证企业博客

码龄7年

22: 原创

14万+: 周排名

40万+: 总排名

5万+: 访问

: 等级

813: 积分

22: 粉丝

36: 获赞

11: 评论

118: 收藏

私信

关注

热门文章

分类专栏

算法 5篇
Python 9篇
html 4篇
Reprinted 2篇
scrapy 3篇
git 1篇

最新评论

算法雪花算法 Python
风一样的男子&: 楼主，你的这个算法如果两个进程拿到的是毫秒数是一样的，拿到的snowid就是一样的
python 爬虫如何使用代理IP
A叶子叶: 少年,我看你骨骼精奇,不如来我博客看看可好
API大全汇总（转载）
孤月青锋: bd，整理的挺全的，就是平台有点多，使用起来不太统一.....我找了半天发现在百度的API商城上大部分都有，调用起来也方便些https://apis.baidu.com/store
API大全汇总（转载）
XTP_API: 其实如果满足条件的投资者（无论个人还是机构）都可以直接申请券商的api，毕竟如果采用通达信破解版接入，用普通的金证柜台，有200ms的穿透时间，目前很多券商针对程序化交易用户提供了专门的通道。这里推荐中泰XTP，纯自主研发而且无论速度（深交所下单到网关小于50us，成交回报1.6ms）还是稳定性（主动订单成交率95%）都是第一梯队的具体的可以看这篇文章——XTP极速通道 - Duke的文章 - 知乎 https://zhuanlan.zhihu.com/p/139641563
web网站性能优化
一袋米要扛几楼_: web性能优化原理与方案看这里 https://blog.csdn.net/lyt_angularjs/article/details/100058428

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

>