时隔一年,嵩哥带来他的新作《雨幕》。
他依旧认真创作,追求高品质,作品在发表之前已听了五百遍以上。
如此高品质的音乐,大家如何评价呢?通过哔哩哔哩上的视频弹幕,感受一下。
01 实现思路
首先,利用哔哩哔哩的弹幕接口,把数据保存到本地。接着,对数据进行分词。最后,做了评论的可视化。
02 弹幕数据
平常我们在看视频时,弹幕是出现在视频上的。实际上在网页中,弹幕是被隐藏在源代码中,以XML的数据格式进行加载的。
比如:
一个固定的url地址 + 视频的cid + .xml
只要找到你想要的视频cid,替换这个url就可以爬取所有弹幕了(b站大部分网页给出的字幕限制是1000条)。
一个视频的cid在哪里呢?
右键网页,打开网页源代码,搜索 "cid": 就能找到:
03 保存数据到本地
有了数据的接口链接,我们就可以利用request模块,获取数据了。
然后,再利用xpath简单的解析xml,就可以把所有的弹幕信息汇总到一个列表里了。最后,把列表转化成dataframe,保存到本地。
# 许嵩新歌《雨幕》 # bilibili视频弹幕文件 url = 'https://comment.bilibili.com/123072475.xml' # 发送请求 response = requests.get(url) xml = etree.fromstring(response.content) # 解析数据 dm = xm