scrapy使用redis存储request指纹 去重 去不正常响应指纹
Scrapy==2.2.0 在使用scrapy时,遇到一个小问题。如果开启了去重持久化,不管返回结果是否正常,都会被记录request指纹。再次爬取该链接时都会被忽略,如果使用dont_dupefilter=True,又起不到去重的作用。scrapy crawl somespider -s JOBDIR=crawls/somespider-1 # 加入持久化路径以开启去重yield scrapy.Request(url, callback=self.parse, dont_dupef..
原创
2020-07-10 12:31:22 ·
1695 阅读 ·
2 评论