Python网络爬虫(十七)——Scrapy架构

最新推荐文章于 2023-12-19 13:52:38 发布

止步听风

最新推荐文章于 2023-12-19 13:52:38 发布

阅读量417

点赞数

分类专栏： # 网络爬虫文章标签： python网络爬虫 scrapy scrapy框架

本文链接：https://blog.csdn.net/SAKURASANN/article/details/106319085

版权

24 篇文章 4 订阅

订阅专栏

对于爬虫来说，整个爬虫包括了网络请求、数据解析、数据请求、设置代理、多线程等内容，这些部分在之前的内容中都分别进行了说明。因此如果在之前要完成一个爬虫的话，就要使用上面提到的所有工具，从头开始一步一步构建自己的爬虫，这无疑是一项繁琐的工作，而 Scrapy 解决了这个问题。

Scrapy 则实现了上边的所有功能，Scrapy 通过将基本的功能进行封装，从而提高了开发的效率。而正是因为它强大的功能，使得它也区别于之前提到的实现某一项功能的工具。这里先说明 Scrapy 框架。

上边红色的箭头就表示了数据的流动。Engine 控制 Scrapy 中的数据流动，具体为：

Engine 负责控制系统中所有组件之间的数据流动，并在发生某些操作时触发某些事件

Scheduler 接收 Engine 发来的请求，并在 Engine 请求它们的时候使之队列化进行数据流动

Downloader 负责获取网页并将之反馈到 Engine，Engine 再将之反馈给 Spider

Spiders 是用户编写的自定义类，用于解析响应和提取信息

Item Pipeline 负责在 Spiders 提取信息的时候对信息进行处理，主要包括清理、验证和存储

Downloader middlewares 位于 Engine 和 Downloader 之间，主要是处理从 Engine 到 Downloader 的请求和从 Downloader 到 Engine 的响应。可以用来：

Spider middlewares 位于 Engine 和 Spiders 之间，能够处理 spider 的输入(响应)和输出(信息和请求)。可以用来：

Scrapy 是由 Twisted(一个大众的事件驱动的 python 网络框架)，因此是非阻塞的(异步)。

关注