Scrapy爬取B站小姐姐入门教程,结果万万没想到!

本文介绍了使用Scrapy框架爬取B站小姐姐视频的教程,详细解析了Scrapy的框架原理及运行流程,包括创建项目、设置目标、制作爬虫、设计管道等步骤,带领读者亲身体验Scrapy的强大功能。
摘要由CSDN通过智能技术生成

scrapy是由Python语言开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。

它的作用有下:

Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。

Scrapy 常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。

通常我们可以很简单的通过 Scrapy 框架实现一个爬虫,抓取指定网站的内容或图片。

scrapy框架的传送门:https://scrapy.org

scrapy框架运行原理

图片

Scrapy Engine(引擎):负者Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据转递等。

Scheduler(调度器) :它负责接受引擊发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。

Downloader (下载器):负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine(引擎) ,由引擎交给Spider来处理。

Spider (爬虫) :它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器)。

Item Pipeline(管道) :它负责处理Spider 中获取到的Item ,并进行进行后期处理(详细分析、过滤、存储等)的地方。

Downloader Middlewares (下载中间件) : 你可以当作是一个可以自定义扩 展下载功能的组件。

Spider Middlewares (Spider中间件) : 你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件(比如进入Spider的Responses;和从Spider出去的Requests )

不知道大家是否还记得,在我们平时写爬虫的时候一般都是划分三个函数。

# 获取网页信息
def get_html():
    pass

# 解析网页
def parse_html():
    pass

# 保存数据
def save_data():
    pass
 

这三个函数基本上没有说谁调用谁的这种说法,最后只能通过主函数来将这些函数调用起来。

很显然,我们的scrapy框架也正是这样的原理,只不过它是把这三部分的功能保存在不同的文件之中,通过scrapy引擎来调用它们。

图片

当我们使用scrapy写好代码并运行的时候就会出现如下的对话。

引擎:兄弟萌,辣么无聊,爬虫搞起来啊!

Spider:好啊,老哥,早就想搞了,今天就爬xxx网站好不好?

引擎:没有问题,入口URL发过来!

Spider:呐,入口的URL是:https://www.xxx.com

引擎:调度器老弟,我这有requests请求你帮我排序入队一下吧。

调度器:引擎老哥,这是我处理好的requests

引擎:下载器老弟,你按照下载中间件的设置帮我下载一下这个requests请求

下载器:可以了,这是下载好的内容。(如果失败:sorry,这个requests下载失败了,然后引擎告诉调度器,这个requests下载失败了,你记录一下,我们待会儿再下载)

引擎:爬虫老弟,这是下载好的东西,下载器已经按照下载中间件处理过了,你自己处理一下吧。

Spider:引擎老哥,我的数据已经处理完毕了,这里有两个结果,这个是我需要跟进的URL,还有这个是我获取到的item数据。

引擎:管道老弟,我这有个item,你帮我处理一下。

引擎:调度器老弟,这是需要跟进的URL你帮我处理一下。(然后从第四步开始循环,直到获取完全部信息)

制作 Scrapy 爬虫 一共需要4步:

新建项目 (scrapy startproject xxx):新建一个新的爬虫项目

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

途途途途

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值