scrapy之架构简介及数据流

最新推荐文章于 2024-08-05 20:06:05 发布

LessenPaul

最新推荐文章于 2024-08-05 20:06:05 发布

阅读量751

点赞数

分类专栏：爬虫spider 文章标签： python

本文链接：https://blog.csdn.net/Leccen/article/details/106592699

版权

本文介绍了Scrapy爬虫框架的基本架构，包括核心组件如Engine、Scheduler、Downloader、Spider、Item Pipeline和Middleware，以及数据流过程。Engine是核心，控制数据在组件间流动。Spider负责解析网页，Item Pipeline处理提取的项目，Middleware则在请求和响应中起作用。文章通过对话形式生动阐述了Scrapy的工作流程。

摘要由CSDN通过智能技术生成

1、scrapy简介

scrapy是一个基于Twisted异步框架的一个高效爬取框架，它是一个纯Python编写的框架，它提供了几个重要的组件，你只需要简单地步骤就可以实现一个网站的爬取。除此之外scrapy还是一个扩展性非常强的框架，你可以基于这些组件取定制适合你业务的功能。

2、scrapy架构概览

我们来看看官方文档上给出的架构，先上图，再解释
在这里插入图片描述

3、组件(components)

scrapy提供了几个核心的组件，我们分别来说说它们的功能：
（1）Scrapy Engine： 它是整个架构中最核心的部分，它负责控制所有的数据在各个组件之间的流动，并根据相应的条件触发对应的事件。正如它的名字一样它是整个框架的“引擎”输出动力
（2）Scheduler： 调度器负责将所有的从engine接收的request加入请求队列，在engine需要时提供给engine
（3）Downloader： 从engine获得request并从web下载页面返回给engine，然后由engine将页面提供给spider
（4）Spider： Spid

最低0.47元/天解锁文章

LessenPaul

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy之架构简介及数据流

文章目录1、scrapy简介2、scrapy架构概览3、组件(components)4、数据流（Data Flow）5、白话文1、scrapy简介 scrapy是一个基于Twisted异步框架的一个高效爬取框架，它是一个纯Python编写的框架，它提供了几个重要的组件，你只需要简单地步骤就可以实现一个网站的爬取。除此之外scrapy还是一个扩展性非常强的框架，你可以基于这些组件取定制适合你业务的功能。2、scrapy架构概览我们来看看官方文档上给出的架构，先上图，再解释3、组件(compo
复制链接

扫一扫

专栏目录