scrapy-redis 下载器并发数波动以及下载速度无法达到理论值的问题
问题
在用 scrapy-redis 进行分布式采集的过程中,分析日志发现 pages/min 数量呈现规律性的波动
原因分析
利用 Telnet 工具进行爬取状态的监控
在CONCURRENT_REQUESTS=16的情况下,爬虫刚启动时从 redis 队列中拉取 16 个请求,进入下载器,直到这16个请求全部下载完成后,爬虫进入空闲状态,调度器才会再次从redis队列中拉取16个请求
如果有使用代理的话,每一批请求的访问间隔则由最慢的那一次请求来决定,会拖慢整个爬虫的速度
解决方案
不知道
...
原创
2021-12-02 18:50:29 ·
1600 阅读 ·
2 评论