Scrapy框架运行机制

最新推荐文章于 2024-03-05 10:15:42 发布

旱地有根胡萝卜

最新推荐文章于 2024-03-05 10:15:42 发布

阅读量1.2k

点赞数 1

分类专栏： python爬虫文章标签： python

本文链接：https://blog.csdn.net/L_huiger/article/details/105681657

版权

python爬虫专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Scrapy框架

Scrapy各组件功能

1，scrapy Engine(引擎)：负责Spider、ItemPipline、Downloader、Scheduler中间的通讯，信号，数据的传递等。
2，Scheduler(调度器)：负责接收引擎发送过来的request请求，并按照一定的方式进行整理排列、入队，当引擎需要时交还给引擎。
3，Downloader(下载器)：负责下载scrapy Engine(引擎)发送过来的所有Request请求，并将其获取到的Response交还给scrapy Engine(引擎)，由引擎交给Spider来处理。
4，Spider(爬虫)：负责处理所有Response，从中分析提取数据，获取item字段需要的数据，并将需要跟进的URL交给引擎再次进入Scheduler(调度器)
5，ItemPipline(管道):负责处理spider获取到的item，并进行后期处理(详细分析、过滤、存储等)的地方。
6，Downloader Middlewares(下载中间件)：可以自定义扩展下载功能的组件。
7，Spider Middlewares(Spider中间件)：可以自定义扩展和操作引擎和spider中间的通信的功能组件（比如进入spider的response，和从spider出去的requests）

Scrapy框架运行机制：

1，由引擎将start_requests交给调度器，将requests请求排序入队。
2，调度器将处理好的request交给引擎
3，引擎将request交给下载器，由下载器请求该request生成响应response，然后将response返回给引擎
4，引擎将生成的response交给spider，在spider中对响应中的数据进行提取
5，spider将提取到的数据交给管道，管道对数据进行保存处理，如果是需要跟进的url，则交给调度器将该url生成request
6，当调度器中不存在任何request了，整个程序才会停止，也就是说对于下载失败的url，scrapy也会重新下载。