白话Scrapy框架

最新推荐文章于 2020-06-06 22:53:29 发布

Morning_17

最新推荐文章于 2020-06-06 22:53:29 发布

阅读量173

点赞数

分类专栏： scrapy 文章标签： scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42740852/article/details/102952987

版权

scrapy 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

白话Scrapy框架

框架组成

引擎

它就是整个爬虫框架的大脑，负责指挥，实现信号、数据在不同组成部分之间的传递
调度器

它是一个队列，一个存放request请求的队列，所有由引擎发过来的request，都会在调度器这里排好队，等着下一步的处理
下载器

将引擎交付过来的request指令完成，得到response，并返回给引擎
爬虫

此时说的爬虫更像是一个军师，它根本没有尽到一个爬虫的义务——爬出去……

它待在家中等着下载器下载完，然后喝着快乐水，处理下载器带回来的response。从response筛选出所需要的东西。
管道

进行数据的处理，这里的数据是从爬虫那边筛选出来的，管道进行数据的进一步清洗、筛选、存储等
下载中间件

自定义下载时的相关东西，如代理
爬虫中间件

自定义request请求和response的过滤

在这里插入图片描述

白话Scrapy组成

引擎是整个框架的大脑，负责调解各个模块的工作，基本所有数据交换、操作都是需要它来安排的，我们一般不会对它进行什么操作（后续的数据交接直接省略掉引擎的环节）

当我们写好爬虫部分，明确了需要爬取的目的地，就会将该request请求放到调度器中进行排队，然后在引擎的安排下，进行后续调度。当轮到了某一request请求，该请求将会被交付给下载器，然后下载器将被当做苦力，去目的地将目的地的所有内容（response）带回来。接下来，这些内容被交付给爬虫，爬虫会进行数据的定位、筛选，然后将筛选过的数据交给管道，让管道进行进一步的清洗，最终达到我们的预期，然后将这些好数据存入数据库；或者爬虫想继续去别的地方拿东西，然后就会重复上述步骤。直到达到我们的预期。

以上仅为笔者的个人理解。

如有错误，请不吝指正！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。