解决Scrapy性能问题——案例四（响应太多导致溢出）

最新推荐文章于 2024-08-07 08:51:51 发布

bluespacezero

最新推荐文章于 2024-08-07 08:51:51 发布

阅读量7k

点赞数 3

分类专栏： scrapy 网络爬虫

本文链接：https://blog.csdn.net/Q_AN1314/article/details/51253675

版权

在Scrapy爬虫运行过程中遇到下载器频繁启动关闭，内存占用高的问题。分析发现，由于响应内容增大到120kb的HTML，导致处理时间延长。实际原因是Scrapy对对象大小有限制，当pipeline处理速度慢于下载器时，会突破限制。解决方案包括优化pipeline，提升web API或数据库的处理能力，简化scraper功能，使用批处理或分布式抓取等。

摘要由CSDN通过智能技术生成

症状：下载器几乎是在满负荷工作，然后过一会就关闭了。然后一直重复这样，而scaper占用的内存很多。

示例：这里我们和之前的设置是一样的（也使用了treq），但是响应的大小被设置成了120kb的HTML。正如你所看到的，它一共花费了31s而不是20s：

$ time scrapy crawl speed -s SPEED_TOTAL_ITEMS=1000 -s
SPEED_T_RESPONSE=0.25 -s SPEED_API_T_RESPONSE=1 -s
SPEED_PIPELINE_API_VIA_TREQ=1 -s SPEED_DETAIL_EXTRA_SIZE=120000
s/edule d/load scrape p/line done mem
952 16 32 32 0 3842818