Scrapy 核心架构流程（三）

最新推荐文章于 2023-04-07 01:22:02 发布

life1024

最新推荐文章于 2023-04-07 01:22:02 发布

阅读量1.2k

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/u013378306/article/details/53023226

版权

爬虫专栏收录该内容

25 篇文章 0 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文深入探讨Scrapy的核心架构，包括引擎、调度器、下载器、Spider、Item Pipeline和中间件的工作原理。详细介绍了Scrapy的数据流过程，从启动网站到处理响应，再到提取Item和生成新请求的完整流程。同时，分析了代码如何与数据流相结合，揭示了Scrapy自动爬取多个网页的机制。

摘要由CSDN通过智能技术生成

一. 核心架构关于核心架构，在官方文档中阐述的非常清晰，地址：http://doc.scrapy.org/en/latest/topics/architecture.html。英文有障碍可查看中文翻译文档，笔者也参与了Scraoy部分文档的翻译，我的翻译GitHub地址：https://github.com/younghz/scrapy_doc_chs。源repo地址：https://github.com/marchtea/scrapy_doc_chs。下面就直接转载部分文档（地址：http://scrapy-chs.readthedocs.org/zh_CN/latest/topics/architecture.html）：概述接下来的图表展现了Scrapy的架构，包括组件及在系统中发生的数据流的概览(绿色箭头所示)。下面对每个组件都做了简单介绍，并给出了详细内容的链接。数据流如下所描述。Scrapy architecture组件Scrapy Engine引擎负责控制数据流在系统中所有组件中流动，并在相应动作发生时触发事件。详细内容查看下面的数据流(Data Flow)部分。调度器(Scheduler)调度器从引擎接受request并将他们入队，以便之后引擎请求他们时提供给引擎。下载器(Downloader)下载器负责获取页面数据并提供给引擎，而后提供给spider。SpidersSpider是Scrapy用户编写用于分析response并提取item(即获取到的item)或额外跟进的URL的类。每个spider负责处理一个特定(或一些)网