python之爬虫开发基础scrapy框架的组件介绍，框架组成和工作原理

最新推荐文章于 2023-08-31 14:19:32 发布

CrMylive.

最新推荐文章于 2023-08-31 14:19:32 发布

阅读量302

点赞数

分类专栏： Python编程入门指南：新手学习必备内容文章标签： python 爬虫 scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34910341/article/details/132003681

版权

Python编程入门指南：新手学习必备内容专栏收录该内容

561 篇文章 29 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Python爬虫框架Scrapy，包括其核心组件：引擎、调度器、下载器、爬虫和管道的工作原理。Scrapy基于Twisted，提供选择器和管道处理数据，可将数据导出到不同格式。工作流程涉及引擎从Spider获取URL，调度器调度请求，下载器下载数据，Spider解析数据，最后管道处理和存储数据。

摘要由CSDN通过智能技术生成

Scrapy 是一个 Python 爬虫框架，它的设计旨在简化网站爬虫的开发难度，让开发者只需关注如何编写规则来提取数据，而无需关注其它繁琐的处理过程。Scrapy 是基于 Twisted 框架的异步网络框架，并已经经过广泛应用和优化，具有可扩展性和高性能的特点。在 Scrapy 中，我们可以使用内置的选择器和管道来处理数据，并可将数据导出到各种格式的文件中。

Scrapy 框架的组成及工作原理：

Scrapy 框架由以下组件构成：

1.引擎（Engine）：是 Scrapy 框架的核心组件，负责调度和监控 Scrapy 的所有组件。主要负责如下几个工作：（1）接受外界指令，实现调度器和下载器之间的交互；（2）将下载器下载的数据返回给 Spider 进行处理；（3）将 Spider 返回的请求传递给调度器。

2.调度器（Scheduler）：是负责接受所有待爬取的请求，并调度这些请求的顺序和时间的组件。主要负责如下几个工作：（1）将发送给 Spider 的请求入队；（2）在下载器空闲时，从队列中取出请求并发送给下载器；（3）负责过滤重复的请求。

3.下载器（

了解本专栏

超级会员免费看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

CrMylive. 穷呀，求求补助

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。