scrapy改分布式
1. spider
1.from scrapy_redis.spiders import RedisSpider
2.修改继承关系
3.redis_key = 'api:start_urls'
4. allow_domains 域名范围
4.1 allow_domains = [写死的]
4.2 自动获取
2. setting
# 1.设置 分布式的 去重组件
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 2.设置 分布式的 调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 3.允许爬虫中途停止 中断
SCHEDULER_PERSIST = True
# 4.设置 redis 数据库的端口号 和IP
REDIS_HOST = '127.0.0.1'
REDIS_PORT = 6379
# 5.设置 redis的下载管道
'scrapy_redis.pipelines.RedisPipeline': 400