Scrapy 源码剖析：架构概览

2401_87300163

于 2024-09-22 21:05:38 发布

阅读量937

点赞数 28

文章标签： scrapy 架构

本文链接：https://blog.csdn.net/2401_87300163/article/details/142443828

版权

也就是说，使用 Scrapy 能帮你快速简单的编写一个爬虫，用来抓取网站数据。

本篇文章不再介绍 Scrapy 的安装和使用，这个系列主要通过阅读源码讲解 Scrapy 的实现思路，关于如何安装和使用的问题，请参考官方网站和官方文档学习。（注：写本篇文章时，Scrapy 版本为1.2，虽然版本有些低，但与最新版的实现思路基本没有很大出入。）

使用 Scrapy 开发一个爬虫非常简单，这里使用 Scrapy 官网上的例子来说明如何编写一个简单爬虫：

简单来讲，编写和运行一个爬虫只需以下几步：

可见，使用 Scrapy 编写简单的几行代码，就能采集到一个网站页面的数据，非常方便。

但是在这背后到底发生了什么？Scrapy 到底是如何帮助我们工作的呢？

要想知道 Scrapy 是如何工作的，首先我们来看一下 Scrapy 的架构图，从宏观角度来了解一下它是如何运行的：

从架构图可以看到，Scrapy 主要包含以下五大模块：

如果你观察地比较仔细的话，可以看到还有两个模块：

了解了这些核心模块，我们再来看使用 Scrapy 时，它内部的采集流程是如何流转的，也就是说各个模块是如何交互协作，来完成整个抓取任务的。

按照上面架构图标识出的序号，我们可以看到，Scrapy 运行时的数据流转大概是这样的：

可见，Scrapy 的架构图还是比较清晰的，各个模块之间互相协作，完成抓取任务。

我在读完它的源码后，整理出了一个更详细的核心模块交互图，其中展示了更多模块的相关细节，你可以参考一下：

这里需要说明一下图中的 Scrapyer 模块，其实这也是 Scrapy 的一个核心模块，但官方的架构图中没有展示出来。这个模块其实是处于 Engine、Spiders、Pipeline 之间，是连接这 3 个模块的桥梁，我会在后面的源码分析文章中具体讲到。

另外，在读源码的过程中，我还整理了这些核心模块的类图，这对于你学习源码会有很大的帮助。

对于这个核心类图简单解释一下：

你在读源码的过程中，可以针对这些核心属性和方法重点关注。

结合官方架构图以及我总结的核心模块交互图、核心类图，我们可以看到，Scrapy 涉及到的组件主要包括以下这些。

五大核心类：Scrapy Engine、Scheduler、Downloader、Spiders、Item Pipeline
四个中间件管理器类：DownloaderMiddlewareManager、SpiderMiddlewareManager、ItemPipelineMiddlewareManager、ExtensionManager
其他辅助类：Request、Response、Selector