B站热门榜单爬虫+可视化(详细过程和解释)

系统功能模块划分

①数据爬取和保存

数据分析和可视化

③页面展示和保存

(2)各功能模块的算法处理流程图及相关说明

①数据爬取和保存

                                 

图2.1 数据爬取和保存(流程)

使用 requests 库发送 HTTP 请求,获取指定B站排行榜的数据。

对获取的 JSON 数据进行解析,并提取关键信息如视频标题、播放数、弹幕数等。

将解析后的数据存储到 Pandas 的 DataFrame 中,并保存为 CSV 文件,便于后续数据分析和处理。

②数据分析和可视化

                          

图2.2 数据分析和可视化(流程)

使用 Pyecharts 库创建柱状图、柱状图和饼状图,展示视频的播放数、弹幕数、投币数、点赞数、分享数和收藏数的分布情况。

分别创建不同类型的图表来比较不同作者的数据分布,例如播放数的分布、弹幕数的分布等。

设置图表的全局选项,如标题、轴标签的旋转角度等,以美化图表呈现效果。

页面展示和保存

                               

图2.3 页面展示和保存(流程)

使用 Pyecharts 的 Page 类创建页面实例,通过 add 方法将所有图表添加到同一个页面中。

最终将整个页面保存为 HTML 文件,便于在浏览器中查看和分享分析结果。

 详细设计

导入python相关的库和模块,用于数据处理和可视化

在cmd中输入pip install 库名来先配置相应的库到python中

若下载过慢可添加国内的镜像源来进行下载

出现如图所示页面后说明相应库已经配置完成

然后导入相应的库比如

pandas:用于数据操作和分析,特别是数据表格的创建、修改和存储,以及对数据进行统计和计算

  • requests:用于发送HTTP请求,主要用来获取网页数据
  • pyecharts;一个基于Echarts实现的python可视化库,可以生成多种图表,包括柱状图(Bar)、饼状图(Pie)

其中具体模块的作用如下:

  • options:提供用于配置图标选项的类和方法,例如标题设置、轴标签设置等
  • charts:提供了各种图表的类,例如Bar和Pie,用于创建不同类型的图表实例
  • Page:提供了页面管理的类,可以将多个图表组合到一个页面中,并进行统一管理和展示

借助字典dict[],创建url_dict: 包含了不同视频类别对应的API链接。每个键值对表示一个视频类别(全站、舞蹈、美食)和对应的API链接。

寻找相应APIi链接的步骤,打开相应的网页

在空白处点击鼠标右键,后选择审查元素,打开如下界面,选择其中的网络,记住要按F5进行刷新,然后筛选处对v2进行筛选

复制其中相应的请求网址即可

headers: 包含了请求的头部信息,用于模拟浏览器发起请求。其中包括了

“upgrade_insecure-requests”:”1”是一个HTTP请求头部字段,用于指示客户端希望通过安全连接(HTTPS)来获取资源,设置为1,表示客户端支持通过安全连接来升级不安全的请求

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值