scrapy_redis源码分析(一):RedisSpider类(自定义初始请求)

先给结果:重写make_requests_from_url方法!!
如果想知道原因,请继续往下看

scrapy_redis是做分布式爬虫的时候经常会用到的一个爬虫框架,scrapy_redis框架是基于scrapy框架,提供了一些以redis为基础的组件。

相对于scrapy设置的start_urls,在scrapy_redis中只需要设置redis_key就可以了,爬虫会自动去redis的相应的key中取到url,然后包装成Request对象,保存在redis的待爬取队列(request queue)中。

但是我们有时候可能想自定义url请求,比如我们可能想要初始化的请求是个post而不是get,或者由于某些原因导致我们从redis中取出来的数据并不是可以直接请求的url。这些都需要我们对redis中的url做进一步的处理,这里主要通过对scrapy_redis中的RedisSpider类进行分析,看看怎样修改才能达到目的。

我们自己实现的spider类基本上通过继承RedisSpider来完成任务调度的。首先我们看看RedisSpider类的源码:

class RedisSpider(RedisMixin, Spider):
	@classmethod
    def from_crawler(self, crawler, *args, **kwargs):
        obj = super(RedisSpider, self).from_crawler(crawler, *args, **kwargs)
        obj.setup_redis(crawler)
        return obj

不难看出RedisSpider类继承自scrapy_redis.spiders.RedisMixin类和scrapy.spiders.Spider类,这里使用了多继承,并用RedisMixin调度功能覆盖Spider原生的调度功能。

RedisMixin类主要包括六个方法:

  1. start_requests
  2. setup_redis
  3. next_requests
  4. make_request_from_data
  5. schedule_next_requests
  6. spider_idle

那这些方法都有什么作用呢?我们注意到,RedisSpider类在实例化之后,调用了setup_redis方法,该方法源码如下:

def setup_redis(self, crawler=None):
    """Setup redis connection and idle signal.

    This should be called after the spider has set its crawler object.
    """
    if self.server is not None:
        return

    if crawler is None:
        # We allow optional crawler argument to keep backwards
        
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值