2024年最全Scrapy 源码剖析：架构概览，字节跳动+京东+美团+腾讯面试总结

2401_84931568

于 2024-05-11 13:08:28 发布

阅读量318

点赞数 3

分类专栏：程序员文章标签： go 学习面试

本文链接：https://blog.csdn.net/2401_84931568/article/details/138711236

版权

57 篇文章 1 订阅

订阅专栏

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Go语言开发知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

简单来讲，编写和运行一个爬虫只需以下几步：

可见，使用 Scrapy 编写简单的几行代码，就能采集到一个网站页面的数据，非常方便。

但是在这背后到底发生了什么？Scrapy 到底是如何帮助我们工作的呢？

要想知道 Scrapy 是如何工作的，首先我们来看一下 Scrapy 的架构图，从宏观角度来了解一下它是如何运行的：

从架构图可以看到，Scrapy 主要包含以下五大模块：

如果你观察地比较仔细的话，可以看到还有两个模块：

了解了这些核心模块，我们再来看使用 Scrapy 时，它内部的采集流程是如何流转的，也就是说各个模块是如何交互协作，来完成整个抓取任务的。

按照上面架构图标识出的序号，我们可以看到，Scrapy 运行时的数据流转大概是这样的：

可见，Scrapy 的架构图还是比较清晰的，各个模块之间互相协作，完成抓取任务。

我在读完它的源码后，整理出了一个更详细的核心模块交互图，其中展示了更多模块的相关细节，你可以参考一下：

这里需要说明一下图中的 Scrapyer 模块，其实这也是 Scrapy 的一个核心模块，但官方的架构图中没有展示出来。这个模块其实是处于 Engine、Spiders、Pipeline 之间，是连接这 3 个模块的桥梁，我会在后面的源码分析文章中具体讲到。

另外，在读源码的过程中，我还整理了这些核心模块的类图，这对于你学习源码会有很大的帮助。

对于这个核心类图简单解释一下：

你在读源码的过程中，可以针对这些核心属性和方法重点关注。

结合官方架构图以及我总结的核心模块交互图、核心类图，我们可以看到，Scrapy 涉及到的组件主要包括以下这些。

五大核心类：Scrapy Engine、Scheduler、Downloader、Spiders、Item Pipeline
四个中间件管理器类：DownloaderMiddlewareManager、SpiderMiddlewareManager、ItemPipelineMiddlewareManager、ExtensionManager
其他辅助类：Request、Response、Selector

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Go语言开发知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新**

关注