scrapy-redis 下载器并发数波动以及下载速度无法达到理论值的问题
最新推荐文章于 2022-10-09 21:17:00 发布
本文分析了使用Scrapy-Redis进行分布式爬取时,页面/分钟数量波动的原因,指出在并发请求CONCURRENT_REQUESTS设置为16的情况下,爬虫在等待所有16个请求完成下载后才会再次拉取新的请求。如果使用代理,请求间隔由最慢请求决定,可能导致整体速度下降。针对此问题,提出了优化方案,但具体措施未详述。
摘要由CSDN通过智能技术生成