一. 核心架构关于核心架构,在官方文档中阐述的非常清晰,地址:http://doc.scrapy.org/en/latest/topics/architecture.html。英文有障碍可查看中文翻译文档,笔者也参与了Scraoy部分文档的翻译,我的翻译GitHub地址:https://github.com/younghz/scrapy_doc_chs。源repo地址:https://github.com/marchtea/scrapy_doc_chs。下面就直接转载部分文档(地址:http://scrapy-chs.readthedocs.org/zh_CN/latest/topics/architecture.html):概述接下来的图表展现了Scrapy的架构,包括组件及在系统中发生的数据流的概览(绿色箭头所示)。 下面对每个组件都做了简单介绍,并给出了详细内容的链接。数据流如下所描述。Scrapy architecture组件Scrapy Engine引擎负责控制数据流在系统中所有组件中流动,并在相应动作发生时触发事件。 详细内容查看下面的数据流(Data Flow)部分。调度器(Scheduler)调度器从引擎接受request并将他们入队,以便之后引擎请求他们时提供给引擎。下载器(Downloader)下载器负责获取页面数据并提供给引擎,而后提供给spider。SpidersSpider是Scrapy用户编写用于分析response并提取item(即获取到的item)或额外跟进的URL的类。 每个spider负责处理一个特定(或一些)网
Scrapy 核心架构 流程 (三)
最新推荐文章于 2023-04-07 01:22:02 发布
本文深入探讨Scrapy的核心架构,包括引擎、调度器、下载器、Spider、Item Pipeline和中间件的工作原理。详细介绍了Scrapy的数据流过程,从启动网站到处理响应,再到提取Item和生成新请求的完整流程。同时,分析了代码如何与数据流相结合,揭示了Scrapy自动爬取多个网页的机制。
摘要由CSDN通过智能技术生成