解决Scrapy性能问题——案例二（含有阻塞的代码）

最新推荐文章于 2024-07-30 18:42:54 发布

bluespacezero

最新推荐文章于 2024-07-30 18:42:54 发布

阅读量6.3k

点赞数

分类专栏： scrapy 网络爬虫文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Q_AN1314/article/details/51251348

版权

当Scrapy项目运行缓慢时，可能是因为存在阻塞代码导致并发性失效。例如，设置的阻塞延迟会导致100个URL请求耗时约13秒而非预期的2-3秒。阻塞可能发生在爬虫或pipeline中，可通过禁用pipeline逐一排查。解决方案包括使用异步代码或Twisted线程池，以及通过日志分析定位问题。

摘要由CSDN通过智能技术生成

症状：系统非常慢，与期望的相差很大，并且当你修改CONCURRENT_REQUESTS的值的时候，速度并没有发生变化。下载器看起来几乎是空的（比CONCURRENT_REQUESTS的值要小），scraper中只有少量一些Response对象。

示例：你可以使用这两个设置项（爬虫代码见这里）：SPEED_SPIDER_BLOCKING_DELAY和SPEED_PIPELINE_BLOCKING_DELAY来使得对于每个响应都会有一个100ms的阻塞延迟。我们希望对于100个URL花费2-3s来完成，然而不管如何设置CONCURRENT_REQUESTS的值，结果都是花费了13s左右。

for concurrent in 16 32 64; do
    time scrapy crawl speed -s SPEED_TOTAL_ITEMS=100<

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。