【Python】如何在 Scrapy 中设置采集深度

音乐学家方大刚

于 2024-08-18 23:42:48 发布

阅读量394

点赞数 10

分类专栏： Python Scrapy 文章标签： python scrapy c++

本文链接：https://blog.csdn.net/qq_35240081/article/details/141307770

版权

Python 同时被 2 个专栏收录

153 篇文章 3 订阅

订阅专栏

Scrapy

14 篇文章 0 订阅

订阅专栏

我听见有人猜
你是敌人潜伏的内线
和你相知多年
我确信对你的了解
你舍命救我画面
一一在眼前浮现
司空见惯了鲜血
你忘记你本是娇娆的红颜
感觉你我彼此都那么依恋
🎵 许嵩《内线》

Scrapy 是一个非常强大的 Python 爬虫框架，它允许开发者通过少量的代码爬取网站中的数据。为了控制爬虫的行为，Scrapy 提供了许多配置选项，其中采集深度是一个关键参数。采集深度控制爬虫从起始 URL 开始，深入爬取链接的层级。合理设置采集深度可以帮助你优化爬虫的效率，避免不必要的深度爬取，也可以防止爬虫陷入无尽的链接循环。

本文将详细介绍在 Scrapy 中如何设置采集深度，以及如何控制和监控爬取深度来提高爬虫的性能和数据质量。

1. 什么是采集深度？

采集深度（Crawl Depth）是指爬虫从初始 URL（种子 URL）出发，爬取页面中的链接时所递归的层次。假设你有以下网页层次结构：

Page 1 (初始 URL)
├── Page 2 (深度 1)
│   ├── Page 3 (深度 2)
│   └── Page 4 (深度 2)
└── Page 5 (深度 1)

在这个例子中：

Page 1 是初始页面，深度为 0。
Page 2 和 Page 5 是初始页面的直接链接，深度为 1。
Page 3 和 Page 4 是从 Page 2 链接到的页面，深度为 2。
通过控制采集深度，你可以限制爬虫在页面之间的递归层次，避免陷入过深的链接链条，从而更高效地爬取数据。

2. 为什么要控制采集深度？

控制采集深度有助于管理爬虫的性能，以下是常见的几个原因：

避免深层次链接循环：很多网站存在深层次的链接循环，爬虫在没有深度限制时可能会无限制地爬取，从而浪费大量时间和资源。
提高爬取效率：通常，页面的核心内容存在于较浅的层次，深层次的页面可能是无关的或不重要的。限制深度可以提高数据获取的效率。
防止爬虫陷入死循环：通过限制深度可以防止爬虫在动态生成的或结构复杂的页面中迷失。
减少数据量：采集深度控制能够避免爬取过多不必要的页面，尤其是在大规模爬取中，有助于减少数据的冗余。

3. 如何在 Scrapy 中设置采集深度？

Scrapy 提供了几个关键配置项来控制爬虫的采集深度：

DEPTH_LIMIT：用于限制爬虫的最大深度。
DEPTH_STATS：用于启用深度统计信息，帮助你监控爬取的深度。
DEPTH_PRIORITY：用于设置爬虫的采集策略（深度优先或广度优先）。

3.1 使用 DEPTH_LIMIT 设置最大采集深度

DEPTH_LIMIT 是 Scrapy 中用于限制爬虫最大爬取深度的配置项。你可以在 settings.py 中设置它。默认情况下，Scrapy 没有深度限制（即不限深度爬取），如果你想限制爬取的深度，可以通过设置该参数来实现。

示例：限制爬虫最多爬取 3 层页面

在 Scrapy 项目的 settings.py 文件中，添加以下配置：

# settings.py

# 设置爬虫的最大爬取深度为 3
DEPTH_LIMIT = 3

这样，爬虫只会爬取到初始 URL 的 3 层深度。假如爬虫从 Page 1 开始，最多会爬取到 Page 4，深度为 2 的页面。

3.2 启用深度统计信息：DEPTH_STATS

Scrapy 允许你启用深度统计，通过 DEPTH_STATS 配置项来查看每层深度的页面抓取情况。这个功能非常有用，可以帮助你了解爬虫的爬取深度和页面分布情况。

要启用深度统计，在 settings.py 中设置：

# settings.py

# 启用深度统计
DEPTH_STATS = True

# 启用统计信息的打印输出
DEPTH_STATS_VERBOSE = True

当你启用 DEPTH_STATS_VERBOSE 后，Scrapy 会在爬取结束时打印出每个深度的抓取统计信息，包括每一层有多少页面被抓取。

输出示例：

Depth stats: 
   depth=0 - 1 pages
   depth=1 - 10 pages
   depth=2 - 25 pages
   depth=3 - 30 pages

这份报告清楚地显示了爬虫在每一层抓取了多少页面，帮助你评估爬取的覆盖范围。

3.3 结合 DEPTH_PRIORITY 控制采集策略

除了限制爬取深度外，Scrapy 还允许你通过 DEPTH_PRIORITY 控制爬虫是采用深度优先（DFS）还是广度优先（BFS）策略。

设置 DEPTH_PRIORITY = 1 可以使爬虫更倾向于深度优先搜索。
设置 DEPTH_PRIORITY = -1 则可以使爬虫更倾向于广度优先搜索（这是默认值）。
例如，如果你希望爬虫使用深度优先采集，优先抓取新发现的页面：

# settings.py

# 设置为深度优先搜索
DEPTH_PRIORITY = 1
SCHEDULER_DISK_QUEUE = 'scrapy.squeues.PickleFifoDiskQueue'
SCHEDULER_MEMORY_QUEUE = 'scrapy.squeues.FifoMemoryQueue'

如果你希望爬虫默认使用广度优先搜索（即逐层抓取，直到抓取到最大深度），可以保留默认设置或将 DEPTH_PRIORITY 设置为 -1：

# settings.py

# 使用广度优先搜索（默认）
DEPTH_PRIORITY = -1
SCHEDULER_DISK_QUEUE = 'scrapy.squeues.PickleLifoDiskQueue'
SCHEDULER_MEMORY_QUEUE = 'scrapy.squeues.LifoMemoryQueue'

4. 示例：控制 Scrapy 爬虫的采集深度

以下是一个简单的 Scrapy 爬虫示例，展示如何使用 DEPTH_LIMIT 控制爬取深度，并启用深度统计。

爬虫代码：

import scrapy

class DepthSpider(scrapy.Spider):
    name = 'depth_spider'
    start_urls = ['https://example.com']

    def parse(self, response):
        self.log(f'爬取页面: {response.url}')
        # 提取页面中的链接并继续爬取
        for href in response.css('a::attr(href)').getall():
            yield scrapy.Request(url=response.urljoin(href), callback=self.parse)

settings.py 文件：

# settings.py

# 设置最大爬取深度为3
DEPTH_LIMIT = 3

# 启用深度统计
DEPTH_STATS = True
DEPTH_STATS_VERBOSE = True

# 使用深度优先策略
DEPTH_PRIORITY = 1
SCHEDULER_DISK_QUEUE = 'scrapy.squeues.PickleFifoDiskQueue'
SCHEDULER_MEMORY_QUEUE = 'scrapy.squeues.FifoMemoryQueue'

运行爬虫：
在命令行中运行爬虫：

scrapy crawl depth_spider

爬虫将会遵循深度优先策略，最多爬取 3 层页面，并在爬取完成后输出每个深度的统计信息。

5. 如何动态调整采集深度？

除了在 settings.py 中配置采集深度，还可以在运行爬虫时动态设置深度限制。你可以通过命令行传递 DEPTH_LIMIT 参数，而不需要修改 settings.py 文件。

例如，在运行爬虫时设置深度限制为 2：

scrapy crawl depth_spider -s DEPTH_LIMIT=2

这种方式非常灵活，适合在不同的场景下快速调整爬虫的行为。

6. 总结

通过合理控制 Scrapy 爬虫的采集深度，可以帮助你优化爬取效率，避免陷入无尽的链接循环，并限制爬虫获取过多不相关的内容。Scrapy 提供了 DEPTH_LIMIT、DEPTH_STATS 和 DEPTH_PRIORITY 等配置选项，允许你灵活地控制爬虫的深度、监控抓取过程，并设置适合的采集策略。

无论你是希望快速获取大量页面，还是需要深入挖掘某些特定网页，理解和配置 Scrapy 的采集深度都是关键的一步。合理地使用这些配置，可以大大提升爬虫的效率和数据质量，帮助你构建高效的爬虫项目。

音乐学家方大刚

关注

10
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
【Python】如何在 Scrapy 中设置采集深度

采集深度（Crawl Depth）是指爬虫从初始 URL（种子 URL）出发，爬取页面中的链接时所递归的层次。Page 1 (初始 URL)├── Page 2 (深度 1)│ ├── Page 3 (深度 2)│ └── Page 4 (深度 2)└── Page 5 (深度 1)在这个例子中：Page 1 是初始页面，深度为 0。Page 2 和 Page 5 是初始页面的直接链接，深度为 1。Page 3 和 Page 4 是从 Page 2 链接到的页面，深度为 2。
复制链接

扫一扫

专栏目录