scrapy爬虫
追风de人
这个作者很懒,什么都没留下…
展开
-
scrapy学习笔记—— CrawlSpider Requests添加header
CrawlSpider爬虫,在使用rule提取链接后,如何添加headers、cookies--------------------------------Scrapy框架中分两类爬虫,Spider类和CrawlSpider类。在scrapy中,对有规律或者无规律的网站进行自动爬取时,常用到CrawlSpider类,它通过定义了一些规则(Rule类)提取页面的url,并自动发起request跟进...原创 2018-06-07 20:29:42 · 3320 阅读 · 0 评论 -
用redis实现scrapy的url去重与增量爬取
scrapy 自带了去重方案,通过RFPDupeFilter类完成去重,查看源码。 def request_seen(self, request): fp = self.request_fingerprint(request) if fp in self.fingerprints: return True self.fin...原创 2018-07-13 20:11:16 · 3223 阅读 · 4 评论