爬虫——2020.10.9 scrapy五大核心组件

最新推荐文章于 2023-08-31 14:19:32 发布

我思想出了问题

最新推荐文章于 2023-08-31 14:19:32 发布

阅读量325

点赞数

分类专栏： python爬虫

本文链接：https://blog.csdn.net/deku1018/article/details/108987625

版权

19 篇文章 0 订阅

订阅专栏

scrapy五大核心组件：

在这里插入图片描述

引擎：用来处理整个系统的数据流，触发事务（框架核心）
调度器：用来接受引擎发过来的请求，压入队列中，并在引擎中再次请求时返回，可以想象成一个URL的优先队列，由他来决定下一个要抓取的是什么，同时去除重复的网址
下载器：用于下载网页内容，并将网页内容返回给蜘蛛（scrapy下载器是建立在twisted这个高效的异步模型上的）
爬虫：爬虫是主要干活的，用于从特定网页中提取自己需要的信息，即所谓的实体(item)。用户也可以从中提取出链接，让scrapy继续抓取下一个页面
项目管道：负责处理爬虫从网页中抽取的实体（item），主要的功能是持久化实体，验证实体的有效性，清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。

关注