现在大家的生活中,已经越来越离不开B站了,
2020年的第一季度,B站月活跃用户达到了1.72亿,日活跃用户也已经突破了5000万个用户。
而B站的弹幕区一直是人才圣地。今天我们就用户python来爬取B站排行榜热门视频弹幕'我和高中时喜欢的女孩子在一起了'
看完视频只想说“好羡慕哦”!
工作原理
那么我们该如何获取此视频10000+弹幕呢?
在B站中,只要视频中有弹幕,就会有一个 cid 参数。cid 用来表示某个视频对应的弹幕池。每个弹幕都有一个对应的 XML 文件,我们可以通过解析 XML 文件获取到 B 站视频的弹幕。
所以,只要知道了 cid 参数值,就可以找到视频弹幕数据的位置了。
那我们在观看视频的时候该如何拿到这个 XML 文件呢?
B 站的弹幕是在 XML 文件里,每个视频都有其对应的 cid 和 aid,我们取到 cid 中的数字放入 http://comment.bilibili.com/cid.xml,即可得到该视频对应的弹幕 XML 文件。
思路分析
b站是提供弹幕接口的,所以我们的整体操作进行如下:
1.到B站获取cid
2.将cid与网站固定格式进行链接
3.用python请求网页
4.进行简单的单词处理
5.生成词云
接下来我们就按照刚才说的顺序进行详细解释