管道的指定
修改管道,指定共享的redis
ITEM_PIPELINES = {
'scrapy_redis.pipelines.RedisPipeline':300
}
调度器的指定
去除重复:
DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'
调度器:
SCHEDULER = 'scrapy_redis.scheduler.Scheduler'
持久化处理,保证数据的连贯性,保存没有爬取的
SCHEDULER_PERSIST = True
指定redis服务器地址:
REDIS_HOST = 'IP地址'
REDIS_PORT = 6379 (redis标准端口号)