Scrapy框架流程图解析

最新推荐文章于 2025-03-14 09:07:33 发布

小田大梦想

最新推荐文章于 2025-03-14 09:07:33 发布

阅读量2.1w

点赞数 40

分类专栏： python小知识文章标签： scrapy parse CrawlSpiders Crawl

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37143745/article/details/80996707

版权

本文解析了Scrapy框架的执行流程，包括Spiders、Engine、Scheduler、Downloader、ItemPipeline和中间件的角色与交互。Scrapy通过Spider生成Request，Engine、Scheduler、Downloader处理并返回Response，再由Spider的parse()方法解析数据，最终由ItemPipeline进行存储。同时介绍了Scrapy的常用命令及保存数据的几种格式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今日语：心空，望望远方的高楼；心属，依然停留

这里写图片描述

接下来就放一张scrapy的架构图喽~(绿线是数据流向)

简单叙述一下每层图的含义吧：

Spiders(爬虫):它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)
Engine(引擎)：负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。
Scheduler(调度器)：它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。
Downloader(下载器)：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理
ItemPipeline(管道):它负责处理Spider中获取到的Item，并进行进行后期处理࿰

最低0.47元/天解锁文章

评论 9

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。