如何将scrapy项目转换成scrapy-redis分布式爬虫

最新推荐文章于 2024-05-31 14:51:40 发布

牛犊不怕虎

最新推荐文章于 2024-05-31 14:51:40 发布

阅读量522

点赞数

分类专栏： scrapy-redis 分布式爬虫文章标签：分布式爬虫

本文链接：https://blog.csdn.net/u013413740/article/details/101192009

版权

scrapy-redis 同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

分布式爬虫

2 篇文章 0 订阅

订阅专栏

将爬虫继承的类从 scrapy.Spider 变成 scrapy_redis.spiders.RedisSpider（或者先import (from scrapy_redis.spiders import RedisSpider)）；或者是从 scrapy.CrawlSpider 变成 scrapy_redis.spiders.RedisCrawlSpider。
将爬虫中的start_urls删掉。增加一个redis_key="xxx"。这个redis_key是为了以后在redis中控制爬虫启动的。爬虫的第一个url，就是在redis中通过这个发送出去的。

修改配置文件：

 # Scrapy-Redis相关配置
    # 确保request存储到redis中
    SCHEDULER = "scrapy_redis.scheduler.Scheduler"

    # 确保所有爬虫共享相同的去重指纹
    DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

    # 设置redis为item pipeline
    ITEM_PIPELINES = {
        'scrapy_redis.pipelines.RedisPipeline': 300
    }

    # 在redis中保持scrapy-redis用到的队列，不会清理redis中的队列，从而可以实现暂停和恢复的功能。
    SCHEDULER_PERSIST = True

    # 设置连接redis信息
    # REDIS_HOST = '127.0.0.1'
    REDIS_HOST = '192.168.43.251'
    REDIS_PORT = 6379