scrapy分布式Spider源码分析及实现过程

最新推荐文章于 2024-06-21 15:11:58 发布

Python之战

最新推荐文章于 2024-06-21 15:11:58 发布

阅读量352

点赞数

文章标签： Python scrapy 爬虫

本文链接：https://blog.csdn.net/weixin_41624982/article/details/88561874

版权

本文分析了scrapy_redis框架中的RedisSpider和RedisCrawlSpider，它们从Redis队列获取start_urls，利用start_requests方法进行URL去重，并通过scrapy引擎和调度器进行分布式爬取。当任务队列为空时，会调用Spider_idle方法重新获取URL，直至队列耗尽，爬虫结束。

摘要由CSDN通过智能技术生成

分布式框架scrapy_redis实现了一套完整的组件，其中也实现了spider，RedisSpider是在继承原scrapy的Spider的基础上略有改动，初始URL不在从start_urls列表中读取，而是从redis起始队列中读取。

scrapy_redis源码在scrapy.redis.spider中，不仅实现了RedisSpider（分布式爬虫）还实现了RedisCrawlSpider（分布式深度爬虫）的逻辑，不过二者很多方法是一致的。

源码如下：

from scrapy import signals
from scrapy.exceptions import DontCloseSpider
from scrapy.spiders import Spider, CrawlSpider

from . import connection

# Default batch size matches default concurrent requests setting.
DEFAULT_START_URLS_BATCH_SIZE = 16
DEFAULT_START_URLS_KEY = '%(name)s:start_urls'

class RedisMixin(object):
    """Mixin class to implement reading urls from a redis queue."""
    # Per spider redis key, default to DEFAULT_START_URLS_KEY.
    redis_key = None
    # Fetch this amount of start urls when idle. Default to DEFAULT_START_URLS_BATCH_SIZE.
    redis_batch_size = None
    # Redis client instance.
    server = None

    def start_requests(self):
        """Returns a batch of start requests from redis."""
        return self.next_requests()

    def setup_redis(self, crawler=None):
        """Setup redis connection and idle signal.
        This should be called after the spider has set its crawler object.
        """
        if self.server is not None:
            return

        if crawler is None:
            # We allow optional crawler argument to keep backwards
            # compatibility.
            # XXX: Raise a deprecation warning.
            crawler = getattr(self, 'crawler', None)

        if crawler is None:
            raise ValueError("crawler is required")

        settings = crawler.settings

        if self.redis_key is

最低0.47元/天解锁文章

Python之战

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy分布式Spider源码分析及实现过程

分布式框架scrapy_redis实现了一套完整的组件，其中也实现了spider，RedisSpider是在继承原scrapy的Spider的基础上略有改动，初始URL不在从start_urls列表中读取，而是从redis起始队列中读取。scrapy_redis源码在scrapy.redis.spider中，不仅实现了RedisSpider（分布式爬虫）还实现了RedisCrawlSpider...
复制链接

扫一扫