scrapy-redis去重
1 、先安装模块pip install scrapy-redis
2、在你的scrapy爬虫的settings.py中加上一下几行即可
#一个去重的类,用来将url去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
#一个队列
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
#是否持久化(爬完后不会再爬了,像一些固定的数据)
SCHEDULER_PERSIST = True
#你的redis地址
REDIS_URL = "redis://192.168.1.101:6379"
爬虫执行后会在redis里出现两个集合
一个是待请求的,一个是已经请求过的已经加密的,请求的时候先加密,跟suning:depefilter里面的比较,在说明请求过了,否则加入,这就达到了去重url。