解决Scrapy性能问题——案例三（下载器中的“垃圾”）

最新推荐文章于 2021-09-09 10:21:49 发布

bluespacezero

最新推荐文章于 2021-09-09 10:21:49 发布

阅读量3.6k

点赞数 2

分类专栏： scrapy 网络爬虫

本文链接：https://blog.csdn.net/q_an1314/article/details/51252847

版权

症状：系统的吞吐量比较期望的要小，并且下载器中的Request对象有时看起来比CONCURRENT_REQUESTS还要多。

示例：我们使用0.25秒的下载延迟来模仿下载1000个网页，默认的并发水平是16个，根据前面的公式，大概需要花19s的时间。我们在一个pipeline中使用crawler.engine.download()来发起一个额外的HTTP请求到一个假的API，这个请求的响应需要1s的时间。运行一下程序：

$ time scrapy crawl speed -s SPEED_TOTAL_ITEMS=1000 -s
SPEED_T_RESPONSE=0.25 -s SPEED_API_T_RESPONSE=1 -s
SPEED_PIPELINE_API_VIA_DOWNLOADER=1
...
s/edule d/load scrape p/line done mem
968 32 32 32

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

bluespacezero

关注关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
解决Scrapy性能问题——案例三（下载器中的“垃圾”）

症状：系统的吞吐量比较期望的要小，并且下载器中的Request对象有时看起来比CONCURRENT_REQUESTS还要多。示例：我们使用0.25秒的下载延迟来模仿下载1000个网页，默认的并发水平是16个，根据前面的公式，大概需要花19s的时间。我们在一个pipeline中使用crawler.engine.download()来发起一个额外的HTTP请求到一个假的API，这个请求的响应需要1s的
复制链接

扫一扫