升级普通Scrapy框架为增量式爬虫（二）

最新推荐文章于 2024-04-09 17:47:36 发布

北房有佳人

最新推荐文章于 2024-04-09 17:47:36 发布

阅读量1.5k

点赞数 1

分类专栏： Scrapy框架的使用技巧文章标签： Scrapy scrapy_redis 爬虫去重增量式爬虫

本文链接：https://blog.csdn.net/mygodit/article/details/83931009

版权

Scrapy框架的使用技巧专栏收录该内容

3 篇文章 0 订阅

订阅专栏

首先需要了解的是，增量爬虫的作用是什么。

日常爬虫应用中，通常会因为一些网络或者人为的原因导致爬虫流程中断，当再次启动爬虫时，又会从头开始，爬取重复的网页，浪费了大量的服务器资源。增量式爬虫最大的作用就是能够断点续爬，上一次的请求从哪里结束，下一次爬虫就从哪里开始。

要想了解增量式爬虫的原理，先让我们了解一下Scrapy框架的运行流程。

Scrapy框架的组成如下图所示:
在这里插入图片描述

Scrapy框架的运行流程

其流程可以描述如下：

1.调度器把requests–>引擎–>下载中间件—>下载器

2.下载器发送请求，获取响应---->下载中间件---->引擎—>爬虫中间件—>爬虫

3.爬虫提取url地址，组装成request对象---->爬虫中间件—>引擎—>调度器

4.爬虫提取数据—>引擎—>管道

5.管道进行数据的处理和保存

注意：
图中绿色线条的表示数据的传递
注意图中中间件的位置，决定了其作用
注意其中引擎的位置，所有的模块之前相互独立，只和引擎进行交互

spider构造的第一个request请求经由引擎交给了Scheduler,Scheduler中构造一个request对象，并将这个对象存入一个Scheduler的队列中，入队之前会生成一个对应的，唯一的指纹，下一个request对象入队之前，会先比对指纹是否已经存在，以此来达到request对象去重的目的。

Scrapy中的源码如下:
Scheduler中Request对象的初始化属性，其中的dont_filter表示不去重，默认是False。所以scrapy框架默认是去重的。

class Request(object_ref):
    def __init__(self, url, callback=None, method='GET', headers=None, body=None,
                 cookies=None, meta=None, encoding='utf-8', priority=0,
                 dont_filter=False, errback=None, flags=None):

爬虫组件Spider中，负责构造request对象是 start_requests(self) 函数。Spider构造的request对象修改了dont_filter属性。

源码如下:

 def start_requests(self):
        cls = self.__class__
        if method_is_overridden(cls, Spider, 'make_requests_from_url'):
            warnings.warn(
                "Spider.make_requests_from_url method is deprecated; it "
                "won't be called in future Scrapy releases. Please "
                "override Spider.start_requests method instead (see %s.%s)." % (
                    cls.__module__, cls.__name__
                ),
            )
            for url in self.start_urls:
                yield self.make_requests_from_url(url)
        else:
            for url in self.start_urls:
                yield Request(url, dont_filter=True)

Scrapy去重的原理

Scrapy去重原理是通过sha1()加密request对象的url,method,body属性生成一个十六进制的40位随机字符串，称为指纹。将每个request对象对应的唯一指纹保存到Scheduler队列中，下次请求时，通过对比指纹，来达到request对象去重的目的。
生成指纹集合的源码如下:

def request_fingerprint(request, include_headers=None):
    if include_headers:
        include_headers = tuple(to_bytes(h.lower())
                                 for h in sorted(include_headers))
    cache = _fingerprint_cache.setdefault(request, {})
    if include_headers not in cache:
        fp = hashlib.sha1()
        fp.update(to_bytes(request.method))
        fp.update(to_bytes(canonicalize_url(request.url)))
        fp.update(request.body or b'')
        if include_headers:
            for hdr in include_headers:
                if hdr in request.headers:
                    fp.update(hdr)
                    for v in request.headers.getlist(hdr):
                        fp.update(v)
        cache[include_headers] = fp.hexdigest()
    return cache[include_headers]

存储在Scheduler中的reqeust队列，是放在内存上的，如果服务器关闭，或者重启，内存中的缓存就会清空，下次请求就会继续访问原来发送过的请求。

增量式爬虫的意义就是将request队列持久化的存储，以此来达到永久性的缓存。

对此需要用到scrapy_redis，将request对象的队列和指纹集合存储的位置替换成redis。
如下图所示:
在这里插入图片描述
只需要在settings.py文件中添加一些配置，就能实现持久化去重的效果:

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_PERSIST = True

# 添加redis链接
REDIS_URL = "redis://127.0.0.1:6379"

# 或者使用下面的方式
# REDIS_HOST = "127.0.0.1"
# REDIS_PORT = 6379

# 在pipeline中添加存储信息的scrapy_redis管道
ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline': 400,
}

现在我们的爬虫就已经可以实现断点续爬，以及达到初步的url去重效果了。

北房有佳人

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
升级普通Scrapy框架为增量式爬虫（二）

首先需要了解的是，增量爬虫的作用是什么。日常爬虫应用中，通常会因为一些网络或者人为的原因导致爬虫流程中断，当再次启动爬虫时，又会从头开始，爬取重复的网页，浪费了大量的服务器资源。增量式爬虫最大的作用就是能够断点续爬，上一次的请求从哪里结束，下一次爬虫就从哪里开始。要想了解增量式爬虫的原理，先让我们了解一下Scrapy框架的运行流程。Scrapy框架的组成如下图所示:其流程可以描述如下：...
复制链接

扫一扫