症状:下载器几乎是在满负荷工作,然后过一会就关闭了。然后一直重复这样,而scaper占用的内存很多。
示例:这里我们和之前的设置是一样的(也使用了treq
),但是响应的大小被设置成了120kb的HTML。正如你所看到的,它一共花费了31s而不是20s:
$ time scrapy crawl speed -s SPEED_TOTAL_ITEMS=1000 -s
SPEED_T_RESPONSE=0.25 -s SPEED_API_T_RESPONSE=1 -s
SPEED_PIPELINE_API_VIA_TREQ=1 -s SPEED_DETAIL_EXTRA_SIZE=120000
s/edule d/load scrape p/line done mem
952 16 32 32 0 3842818