RUN__IT # scrapy改分布式

最新推荐文章于 2024-09-22 21:12:40 发布

RUN IT

最新推荐文章于 2024-09-22 21:12:40 发布

阅读量130

点赞数

分类专栏： python爬虫

本文链接：https://blog.csdn.net/RUN__IT/article/details/100113478

版权

python爬虫专栏收录该内容

16 篇文章 0 订阅

订阅专栏

scrapy改分布式


1. spider
    1.from scrapy_redis.spiders import RedisSpider
    2.修改继承关系
    3.redis_key = 'api:start_urls'
    4. allow_domains 域名范围
        4.1 allow_domains = [写死的]
        4.2 自动获取

2. setting

    # 1.设置 分布式的 去重组件
    DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
    # 2.设置 分布式的 调度器
    SCHEDULER = "scrapy_redis.scheduler.Scheduler"

    # 3.允许爬虫中途停止 中断
    SCHEDULER_PERSIST = True

    # 4.设置 redis 数据库的端口号 和IP
    REDIS_HOST = '127.0.0.1'
    REDIS_PORT = 6379

    # 5.设置 redis的下载管道
    'scrapy_redis.pipelines.RedisPipeline': 400