scrapy框架爬虫

锦锦昇

已于 2022-04-04 20:22:58 修改

阅读量1k

点赞数

文章标签：爬虫

于 2022-04-04 20:21:40 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hxb002131/article/details/123959528

版权

本文介绍了Scrapy，一个用于网页抓取和数据提取的Python框架。Scrapy由调度器、下载器、爬虫、实体管道和引擎五大组件构成，其中调度器管理抓取网址，下载器负责下载网页，爬虫解析提取数据，实体管道处理和持久化数据，引擎控制整个流程。此外，文章还涵盖了Scrapy的安装和项目创建过程。

摘要由CSDN通过智能技术生成

目录

一、什么是scrapy？

二、Scrapy五大基本构成:

　　(1)、调度器(Scheduler):

　　(2)、下载器(Downloader):

　　(3)、爬虫（Spider）:

　　(4)、实体管道(Item Pipeline):

　　(5)、Scrapy引擎(Scrapy Engine):

三、scrap框架架构图

四、Scrapy安装以及生成项目

1、安装scrapy框架所需jar包：

2、创建项目

一、什么是scrapy？

Scrapy，Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，后台也应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。

Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等，最新版本又提供了web2.0爬虫的支持。

二、Scrapy五大基本构成:

Scrapy框架主要由五大组件组成，它们分别是调度器(Scheduler)、下载器(Downloader)、爬虫（Spider）和实体管道(Item Pipeline)、Scrapy引擎(Scrapy Engine)。下面我们分别介绍各个组件的作用。

　　(1)、调度器(Scheduler):

　　调度器，说白了把它假设成为一个URL（抓取网页的网址或者说是链接）的优先队列&

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。