升级普通Scrapy框架为增量式爬虫(二)

首先需要了解的是,增量爬虫的作用是什么。

日常爬虫应用中,通常会因为一些网络或者人为的原因导致爬虫流程中断,当再次启动爬虫时,又会从头开始,爬取重复的网页,浪费了大量的服务器资源。增量式爬虫最大的作用就是能够断点续爬,上一次的请求从哪里结束,下一次爬虫就从哪里开始。

要想了解增量式爬虫的原理,先让我们了解一下Scrapy框架的运行流程。

Scrapy框架的组成如下图所示:
在这里插入图片描述

Scrapy框架的运行流程

其流程可以描述如下:

1.调度器把requests–>引擎–>下载中间件—>下载器

2.下载器发送请求,获取响应---->下载中间件---->引擎—>爬虫中间件—>爬虫

3.爬虫提取url地址,组装成request对象---->爬虫中间件—>引擎—>调度器

4.爬虫提取数据—>引擎—>管道

5.管道进行数据的处理和保存

注意:
图中绿色线条的表示数据的传递
注意图中中间件的位置,决定了其作用
注意其中引擎的位置,所有的模块之前相互独立,只和引擎进行交互

spider构造的第一个request请求经由引擎交给了Scheduler,Scheduler中构造一个request对象,并将这个对象存入一个Scheduler的队列中,入队之前会生成一个对应的,唯一的指纹,下一个request对象入队之前,会先比对指纹是否已经存在,以此来达到request对象去重的目的。

Scrapy中的源码如下:
Scheduler中Request对象的初始化属性,其中的dont_filter表示不去重,默认是False。所以scrapy框架默认是去重的。

class Request(object_ref):
    def __init__(self, url, callback=None, method='GET', headers=None, body=None,
                 cookies=None, meta=None, encoding='utf-8', priority=0,
                 dont_filter=False, errback=None, flags=None):

爬虫组件Spider中,负责构造request对象是 start_requests(self) 函数。Spider构造的request对象修改了dont_filter属性。

源码如下:

 def start_requests(self):
        cls = self.__class__
        if method_is_overridden(cls, Spider, 'make_requests_from_url'):
            warnings.warn(
                "Spider.make_requests_from_url method is deprecated; it "
                "won't be called in future Scrapy releases. Please "
                "override Spider.start_requests method instead (see %s.%s)." % (
                    cls.__module__, cls.__name__
                ),
            )
            for url in self.start_urls:
                yield self.make_requests_from_url(url)
        else:
            for url in self.start_urls:
                yield Request(url, dont_filter=True)

Scrapy去重的原理

Scrapy去重原理是通过sha1()加密request对象的url,method,body属性生成一个十六进制的40位随机字符串,称为指纹。将每个request对象对应的唯一指纹保存到Scheduler队列中,下次请求时,通过对比指纹,来达到request对象去重的目的。
生成指纹集合的源码如下:

def request_fingerprint(request, include_headers=None):
    if include_headers:
        include_headers = tuple(to_bytes(h.lower())
                                 for h in sorted(include_headers))
    cache = _fingerprint_cache.setdefault(request, {})
    if include_headers not in cache:
        fp = hashlib.sha1()
        fp.update(to_bytes(request.method))
        fp.update(to_bytes(canonicalize_url(request.url)))
        fp.update(request.body or b'')
        if include_headers:
            for hdr in include_headers:
                if hdr in request.headers:
                    fp.update(hdr)
                    for v in request.headers.getlist(hdr):
                        fp.update(v)
        cache[include_headers] = fp.hexdigest()
    return cache[include_headers]

存储在Scheduler中的reqeust队列,是放在内存上的,如果服务器关闭,或者重启,内存中的缓存就会清空,下次请求就会继续访问原来发送过的请求。

增量式爬虫的意义就是将request队列持久化的存储,以此来达到永久性的缓存。

对此需要用到scrapy_redis,将request对象的队列和指纹集合存储的位置替换成redis。
如下图所示:
在这里插入图片描述
只需要在settings.py文件中添加一些配置,就能实现持久化去重的效果:

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_PERSIST = True

# 添加redis链接
REDIS_URL = "redis://127.0.0.1:6379"

# 或者使用下面的方式
# REDIS_HOST = "127.0.0.1"
# REDIS_PORT = 6379

# 在pipeline中添加存储信息的scrapy_redis管道
ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline': 400,
}

现在我们的爬虫就已经可以实现断点续爬,以及达到初步的url去重效果了。

  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值