python弹幕分析_用Python抓取bilibili弹幕并分析

本文介绍如何使用Python从Bilibili获取视频弹幕数据,通过分词和词云可视化来分析观众的反馈。首先,利用B站的弹幕接口获取XML数据,然后解析并保存为CSV。接着,运用jieba进行分词处理,最后生成词云图以直观展示弹幕内容。
摘要由CSDN通过智能技术生成

71553c4ae4e244ca9cf31696a2b466c7.png

作者|GitPython

时隔一年,嵩哥带来他的新作《雨幕》。

他依旧认真创作,追求高品质,作品在发表之前已听了五百遍以上。

如此高品质的音乐,大家如何评价呢?通过哔哩哔哩上的视频弹幕,感受一下。

01实现思路

首先,利用哔哩哔哩的弹幕接口,把数据保存到本地。接着,对数据进行分词。最后,做了评论的可视化。

02弹幕数据

c095dc086e8686dc3fb0f854adbb1ca9.png

平常我们在看视频时,弹幕是出现在视频上的。实际上在网页中,弹幕是被隐藏在源代码中,以XML的数据格式进行加载的。

比如:

https://comment.bilibili.com/123072475.xml

一个固定的url地址 视频的cid .xml

只要找到你想要的视频cid,替换这个url就可以爬取所有弹幕了(b站大部分网页给出的字幕限制是1000条)。

一个视频的cid在哪里呢?

右键网页,打开网页源代码,搜索"cid":就能找到:

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值