scrapy-redis 的改造方法
要将一个Scrapy项目变成一个Scrapy-redis项目只需修改以下三点就可以了:
1、导包:from scrapy_redis.spiders import RedisSpider
将爬虫的类从scrapy.Spider变成RedisSpider;或者是 从scrapy.CrawlSpider变成scrapy_redis.spiders.RedisCrawlSpider。
2.将爬虫中的start_urls删掉。
增加一个redis_key=“xxx”。这个redis_key是为了以后在redis中控制爬虫启动的。爬虫的第一个url,就是在redis中通过这个发送出去的。
3.在配置文件中增加如下配置:
Scrapy-Redis相关配置(settings.py文件),确保request存储到redis中
SCHEDULER = “scrapy_redis.scheduler.Scheduler”
确保所有爬虫共享相同的去重指纹
DUPEFILTER_CLASS = “scrapy_redis.dupefilter.RFPDupeFilter”
设置redis为item p