项目实训报告-3 了解Scrapy

最新推荐文章于 2024-08-21 09:08:03 发布

X103

最新推荐文章于 2024-08-21 09:08:03 发布

阅读量624

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44740561/article/details/118424357

版权

本文介绍了Python的Scrapy框架，包括其整体架构——Scrapy Engine、Scheduler、Downloader、Spiders和Item Pipelines的职责。此外，还详述了如何初步设置Scrapy项目，如配置items.py、settings.py、pipelines.py文件，以及自定义爬虫的编写。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

经过决定运用Python Scrapy库进行数据爬取，于是开展了针对Scrapy的学习

1.整体架构

官方解析：Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

架构理解：

Scrapy Engine：即Scrapy引擎，负责综合控制各个事件，并调度各个部件；

Scheduler：即调度器，从引擎接收信号后将数据入列，并可再次返回给引擎，用于决定操作的调度顺序；

Downloader：即下载器，抓取网页并将网页内容返还给Spiders；

Spiders：即爬虫，自定义的类，用以解析网页，发起url请求和提取item；

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。