Scrapy 源码剖析：架构概览，零基础学Golang

2401_84254343

于 2024-04-13 13:39:15 发布

阅读量879

点赞数 15

分类专栏：程序员文章标签： scrapy 架构

本文链接：https://blog.csdn.net/2401_84254343/article/details/137713712

版权

209 篇文章 0 订阅

订阅专栏

可见，使用 Scrapy 编写简单的几行代码，就能采集到一个网站页面的数据，非常方便。

但是在这背后到底发生了什么？Scrapy 到底是如何帮助我们工作的呢？

要想知道 Scrapy 是如何工作的，首先我们来看一下 Scrapy 的架构图，从宏观角度来了解一下它是如何运行的：

从架构图可以看到，Scrapy 主要包含以下五大模块：

如果你观察地比较仔细的话，可以看到还有两个模块：

了解了这些核心模块，我们再来看使用 Scrapy 时，它内部的采集流程是如何流转的，也就是说各个模块是如何交互协作，来完成整个抓取任务的。

按照上面架构图标识出的序号，我们可以看到，Scrapy 运行时的数据流转大概是这样的：

可见，Scrapy 的架构图还是比较清晰的，各个模块之间互相协作，完成抓取任务。

我在读完它的源码后，整理出了一个更详细的核心模块交互图，其中展示了更多模块的相关细节，你可以参考一下：

这里需要说明一下图中的 Scrapyer 模块，其实这也是 Scrapy 的一个核心模块，但官方的架构图中没有展示出来。这个模块其实是处于 Engine、Spiders、Pipeline 之间，是连接这 3 个模块的桥梁，我会在后面的源码分析文章中具体讲到。

另外，在读源码的过程中，我还整理了这些核心模块的类图，这对于你学习源码会有很大的帮助。

对于这个核心类图简单解释一下：

你在读源码的过程中，可以针对这些核心属性和方法重点关注。

结合官方架构图以及我总结的核心模块交互图、核心类图，我们可以看到，Scrapy 涉及到的组件主要包括以下这些。

五大核心类：Scrapy Engine、Scheduler、Downloader、Spiders、Item Pipeline
四个中间件管理器类：DownloaderMiddlewareManager、SpiderMiddlewareManager、ItemPipelineMiddlewareManager、ExtensionManager
其他辅助类：Request、Response、Selector

我们先对 Scrapy 整个架构有一个初步认识，在接下来的文章里，我会针对上述的这些类和方法进行更加详细的源码讲解。

更多阅读

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Go语言工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Go语言全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Golang知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加V获取：vip1024b （备注Go）

一个人可以走的很快，但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎扫码加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

HQ2l-1712986744152)]

关注