强大的爬虫框架 Scrapy

芯动大师

已于 2022-10-15 21:50:05 修改

阅读量425

点赞数 3

分类专栏：爬虫与数据库文章标签：爬虫 scrapy python

于 2022-10-14 21:43:58 首次发布

本文链接：https://blog.csdn.net/shiwei0813/article/details/127328278

版权

爬虫与数据库专栏收录该内容

9 篇文章 1 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本节来介绍一个强大的爬虫框架 Scrapy。Scrapy 是一个基于 Twisted 的异步处理框架，是纯 Python 实现的爬虫框架，其架构清晰，模块之间的耦合程度低，可扩展性极强，可以灵活完成各种需求。

1. Scrapy的架构

Scrapy 的架构图如下所示：

下面对上图中的各个组件做介绍：

1. Engine：引擎负责控制数据流在系统所有组件中流动，并在相应动作发生时触发事件。
2. Scheduler：调度器从引擎接受request并将他们入队，以便之后引擎请求他们时提供给引擎。
3. Downloader：下载器负责获取页面数据并提供给引擎，而后提供给spider。
4. Spiders：Spider 是 Scrapy 用户编写用于分析 response 并提取 item(即获取到的 item)或额外跟进的 URL 的类。 每个 spider 负责处理一个特定(或一些)网站。
5. Item Pipelines：Item Pipeline 负责处理被 spider 提取出来的 item。典型的处理有清理、 验证及持久化(例如存取到数据库中)。
6. Downloader Middlewares：下载器中间件是在引擎及下载器之间的特定钩子(specific hook)，处理 Downloader 传递给引擎的 response。 其提供了一个简便的机制，通过插入自定义代码来扩展 Scrapy 功能。
7. Spider Middlewares：Spider 中间件是在引擎及 Spider 之间的特定钩子(specific hook)，处理 spi

了解本专栏

超级会员免费看

芯动大师

关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
3
评论
强大的爬虫框架 Scrapy

本节来介绍一个强大的爬虫框架 Scrapy。Scrapy 是一个基于 Twisted 的异步处理框架，是纯 Python 实现的爬虫框架，其架构清晰，模块之间的耦合程度低，可扩展性极强，可以灵活完成各种需求。
复制链接

扫一扫