scrapy框架的整体架构和组成

最新推荐文章于 2025-03-20 23:14:01 发布

Time_xiaoxia

最新推荐文章于 2025-03-20 23:14:01 发布

阅读量1.2k

点赞数

文章标签：中间件 python

本文链接：https://blog.csdn.net/time_xiaoxia/article/details/108760378

版权

本文详细解析了Scrapy框架的组成部分，包括Spiders、Engine、Scheduler、Downloader、ItemPipeline和中间件。Scrapy的核心是Engine，它协调调度器、下载器和爬虫之间的数据流。下载中间件和Spider中间件处理请求和响应，而项目管道负责数据清洗和存储。文章通过流程图阐述了Scrapy的执行顺序，帮助读者理解框架的工作原理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

框架的基本解读

在这里插入图片描述

图中绿色的是数据的流向
我们看到图里有这么几个东西，分别是
Spiders：爬虫，定义了爬取的逻辑和网页内容的解析规则，主要负责解析响应并生成结果和新的请求
Engine：引擎，处理整个系统的数据流处理，出发事物，框架的核心。
Scheduler：调度器，接受引擎发过来的请求，并将其加入队列中，在引擎再次请求时将请求提供给引擎
Downloader：下载器，下载网页内容，并将下载内容返回给spider
ItemPipeline：项目管道，负责处理spider从网页中抽取的数据，主要是负责清洗，验证和向数据库中存储数据
Downloader Middlewares：下载中间件，是处于Scrapy的Request和Requesponse之间的处理模块
Spider Middlewares：spider中间件，位于引擎和spider之间的框架，主要处理spider输入的响应和输出的结果及新的请求middlewares.py里实现

是不感觉东西很多，很乱，有点懵！没关系，框架之所以是框架因为确实很简单
我们再来看下面的这张图！你就懂了