解决Scrapy性能问题——案例三（下载器中的“垃圾”）

最新推荐文章于 2024-03-21 03:00:00 发布

bluespacezero

最新推荐文章于 2024-03-21 03:00:00 发布

阅读量3.7k

点赞数 2

分类专栏： scrapy 网络爬虫

本文链接：https://blog.csdn.net/Q_AN1314/article/details/51252847

版权

文章探讨了Scrapy在处理下载器中的额外HTTP请求时导致性能下降的问题。通过示例展示了使用下载延迟和并发级别时，由于在pipeline中发起HTTP请求，下载器负载超载，影响系统吞吐量。建议使用特定库替代`urlopen`以提高性能，并解释了为何pipeline中的请求数可能多于下载器，但只要不超过限制，不影响整体性能。

摘要由CSDN通过智能技术生成

症状：系统的吞吐量比较期望的要小，并且下载器中的Request对象有时看起来比CONCURRENT_REQUESTS还要多。

示例：我们使用0.25秒的下载延迟来模仿下载1000个网页，默认的并发水平是16个，根据前面的公式，大概需要花19s的时间。我们在一个pipeline中使用crawler.engine.download()来发起一个额外的HTTP请求到一个假的API，这个请求的响应需要1s的时间。运行一下程序：

$ time scrapy crawl speed -s SPEED_TOTAL_ITEMS=1000 -s
SPEED_T_RESPONSE=0.25 -s SPEED_API_T_RESPONSE=1 -s
SPEED_PIPELINE_API_VIA_DOWNLOADER=1
...
s/edule d/load scrape p/line done mem
968 32 32 32