Python爬虫（一）：Scrapy架构流程介绍

最新推荐文章于 2024-08-12 21:59:50 发布

eook767117193

最新推荐文章于 2024-08-12 21:59:50 发布

阅读量263

点赞数 1

分类专栏： Python之路文章标签：爬虫 python scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014041590/article/details/83421003

版权

本文介绍了Scrapy爬虫框架的基本概念和架构，包括Scrapy Engine、Scheduler、Downloader、Spiders和Item Pipeline等组件的作用。同时，概述了制作Scrapy爬虫的步骤，从新建项目、定义目标到创建爬虫和设计数据存储。最后，提到了Scrapy在Windows和Ubuntu上的安装方法。

摘要由CSDN通过智能技术生成

先来看一下Scrapy是什么

Scrapy是一套基于Twisted的移步处理框架，是纯python实现的爬虫框架，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容或者各种图片。

1、Scrapy架构图(绿线为数据流)

Scrapy Engine(引擎)：其本身什么事都不做，就只号发指令，完成通信的功能，指派四个组件完成相关操作。
Scheduler(调度器)：负责接收 Scrapy Engine 发送来的 Requests，并将其整理(去重处理)排列进队列存放，当 Scrapy Engine 需要时，还给 Scrapy Engine 发送去 Downloader 进行下载。
Downloader(下载器)：负责下载 Scrapy Engine 发送来的 Requests，并将其获取的 Responses 文件(经过下载中间件处理的)交还给 Scrapy Engine，由 Scrapy Engine 交给 Spiders 进行处理。
Spiders(爬虫)：负责解析 Responses 文件，从中提取需要的数据 (Item、URL)。将 Item 数据交由 Scrapy Engine 传送给 Item Pipeline，将新的请求(URL) 交由 Scrap

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。