- Scrapy1.4.0科普文章
下面是Scrapy 结构图
上图的数字代表数据的流向,解释如下
- 1 引擎从Spider 获取初始Request对象
- 2 引擎将获取的Request对象交给调度器Scheduler,并向Spider要下一个Request对象
- 3 调度器将下一个Request对象交给引擎
- 4 引擎将Request对象交给下载器Downloader, 途径下载器中间件
- 5 网页下载完成,下载器Downloader生成一个Response对象, 并经过下载中间件交给引擎
- 6 引擎收到Response对象, 并交给Spider处理, 途径 Spider Middleware
- 7 Spider 处理Response 对象, 并将提取的结构化数据构成Item,同时生成新的Request对象,一并交给引擎, 途径 Spider Middleware
8 引擎将Item 交给ItemPipeline 处理, 将Request对象交给调度器Scheduler, 并继续想Spider要Request对象,直到没有Request对象可处理
从上面的结构图可看出, Scrapy 框架以Engine 为核心来运转,当调度器中没有Request需要爬取时,爬取任务结束
Scrapy 结构图解析
最新推荐文章于 2024-08-06 10:59:23 发布