python爬取歌词生成词云图_Python爬取B站弹幕并制作词云图

最新推荐文章于 2024-05-21 16:30:56 发布

大学资源

最新推荐文章于 2024-05-21 16:30:56 发布

阅读量141

点赞数

文章标签： python爬取歌词生成词云图

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36432451/article/details/112872332

版权

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

基本开发环境

Python 3.6

Pycharm

相关模块的使用

requests在cmd中 pip install requests 安装即可

我这是显示已经安装过了的，如果你没有安装的话，是会有安装进度条的。

目标网页分析

就选择B站排行榜第一的视频。

如何找到弹幕数据？

如上图所示：

1、点击进入网页之后，F12打开开发者工具，选择Ntework

3、点击选择有日期的url地址，弹幕的数据都包含在内了(如下图所示)

弹幕数据的url地址既然都知道了，那么就可以直接爬取下来了。

代码实现部分

1、请求网页获取源代码数据

爬取这些数据是需要加上cookie的，如果没有加cookie的话会显示你未登录账号

所以需要在headers里面添加cookie

cookie怎么添加呢？

在开发者工具当中，选择你所需要爬取的url地址，查看headers其中的requests headers 中的cookie就是了。

当给了cookie之后又出现问题了

虽然数据是有了，但是出现乱。其实只需要加一行代码就可以解决，还是比较万能的转码方式。

遇到乱码问题都可以这样使用，如果使用之后还是出现乱码问题，就要根据网页的编码进行转码了。

2、使用正则表达式提取弹幕数据

正则表达式提取出来的数据，是列表格式，所以需要遍历提取出每一条弹幕数据。

3、保存数据至本地

mode='a'：写入模式为a，追加写入

encoding='utf-8'：指定写入编码，文字内容均为 'utf-8'

写入一个换行符，每写入一条数据，就重新换一个行写入

4、批量爬取弹幕数据

之前只是爬取一天的弹幕数据，如果想要爬取一段时间内容的弹幕数据的话，只需要改变url地址中的日期就可以了

就是从9号爬取到11号的数据，这个视频也刚出来三天。

爬虫完整代码

通过代码量可以看的出来，B站弹幕的爬取还是比较简单的，16行就能搞定，说到底还是python代码简洁优雅。

弹幕词云代码

实现效果

点分享

点收藏

点点赞

点在看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。