scrapy_redis源码分析(一)：RedisSpider类(自定义初始请求)

最新推荐文章于 2022-05-01 08:30:00 发布

potato_big

最新推荐文章于 2022-05-01 08:30:00 发布

阅读量1.1k

点赞数 2

分类专栏： python爬虫文章标签： python redis 爬虫分布式

本文链接：https://blog.csdn.net/Pual_wang/article/details/107567562

版权

先给结果：重写make_requests_from_url方法！！

如果想知道原因，请继续往下看

scrapy_redis是做分布式爬虫的时候经常会用到的一个爬虫框架，scrapy_redis框架是基于scrapy框架，提供了一些以redis为基础的组件。

相对于scrapy设置的start_urls，在scrapy_redis中只需要设置redis_key就可以了，爬虫会自动去redis的相应的key中取到url，然后包装成Request对象，保存在redis的待爬取队列(request queue)中。

但是我们有时候可能想自定义url请求，比如我们可能想要初始化的请求是个post而不是get，或者由于某些原因导致我们从redis中取出来的数据并不是可以直接请求的url。这些都需要我们对redis中的url做进一步的处理，这里主要通过对scrapy_redis中的RedisSpider类进行分析，看看怎样修改才能达到目的。

我们自己实现的spider类基本上通过继承RedisSpider来完成任务调度的。首先我们看看RedisSpider类的源码：

class RedisSpider(RedisMixin, Spider):
	@classmethod
    def from_crawler(self, crawler, *args, **kwargs):
        obj = super(RedisSpider, self).from_crawler(crawler, *args, **kwargs)
        obj.setup_redis(crawler)
        return obj

不难看出RedisSpider类继承自scrapy_redis.spiders.RedisMixin类和scrapy.spiders.Spider类，这里使用了多继承，并用RedisMixin调度功能覆盖Spider原生的调度功能。

RedisMixin类主要包括六个方法：

start_requests
setup_redis
next_requests
make_request_from_data
schedule_next_requests
spider_idle

那这些方法都有什么作用呢？我们注意到，RedisSpider类在实例化之后，调用了setup_redis方法，该方法源码如下：

def setup_redis(self, crawler=None):
    """Setup redis connection and idle signal.

    This should be called after the spider has set its crawler object.
    """
    if self.server is not None:
        return

    if crawler is None:
        # We allow optional crawler argument to keep backwards