Python--Scrapy框架介绍

最新推荐文章于 2024-06-22 16:33:22 发布

SanfordZhu

最新推荐文章于 2024-06-22 16:33:22 发布

阅读量1.2k

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/weixin_39003229/article/details/81185647

版权

6 篇文章 1 订阅

订阅专栏

Scrapy框架概述

　　图表展现了Scrapy的架构，包括组件及在系统中发生的数据流的概览(绿色箭头所示)。下面对每个组件都做了简单介绍，并给出了详细内容的链接。数据流如下所描述。

Scrapy architecture

Scrapy Engine

引擎负责与其他模块进行通信，控制数据流在系统所有组件上的流动。

调度器(Scheduler)

用来接收引擎发送过来的request，并压入队列中，并在引擎再次请求的时候返回一个URL。我们可以把它想象成一个URL优先队列，由它来进行URL的去重，并决定下一个要抓取的URL是什么，随后返回给引擎，再由引擎将request传送给下载器。

下载器(Downloader)

下载器负责从网络上获取页面数据并返回response给引擎，随后由引擎传送给Spider。

Spiders

Spider负责分析response，提取item实体，并返回给引擎，随后由引擎传送给Item Pipeline。也可以从中提取出URL返回给Scheduler，让Scrapy继续抓取下一个页面。

Item Pipeline

Item Pipeline负责处理被spider提取出来的item。主要功能有持久化实体（传入数据库）、验证实体有效性、清除不需要的信息。

下载器中间件(Downloader middlewares)

下载器中间件负责处理Scrapy引擎与下载器之间的请求及响应。通过插入自定义代码来扩展Scrapy功能。如：增加http头信息、代理信息来隐藏自己等。

Spider中间件(Spider middlewares)

处理spider的输入(response)和输出(items及requests)。

事件驱动网络(Event-driven networking)

Scrapy基于事件驱动网络框架Twisted编写。因此，Scrapy基于并发性考虑由非阻塞(即异步)的实现。

数据流(Data flow)

Scrapy中的数据流由执行引擎控制，其过程如下:

关注

专栏目录