python弹幕好坏词分析_用python分析一波哔哩哔哩弹幕

又差不多到了过年的的时候咯。不知道几年的b站拜年祭会怎么样呢?

这时让我想起了B站第一次的拜年祭,如果我没记错的话第一次拜年祭是在2015年吧。我当初也是和大伙一起看了的。

最近无聊去看了看,发现视频的弹幕还真是漫天飞啊。咦,弹幕都发了什么呢?

作为一个苦逼的码农,为什么不用工具(py)分析一波呢?

emmmm,首先肯定是要获取到视频的弹幕啦。

2015年拜年祭历史弹幕如下图:

有了数据没有图表怎么行呢?

# 首先来看看在视频进度条出现的弹幕数量:可以看出在视频的前1分钟和9到10分钟的时候弹幕数量是最多的

视频一开始是大家最积极发弹幕的时候,而9到11分钟的时候应该是视频的高潮部分

再看看15年至今的历史弹幕数量:可以看出在2016年1月到2月的时候弹幕数量是最多的,那会刚好是春节,可能大家都在等16年的拜年祭无聊而回顾15年的拜年祭吧。

不过本人觉得16年的弹幕比15年的多,不知道是不是数据错误了。。。

一天之内弹幕出现的数量:可以看出12点到24点的人数是比较多的,也就是说这段时间用户活跃度高。毕竟熬夜的人还是少部分的,早上喜欢睡懒觉的人还是多的

再来看看弹幕的字体大小:最多人用的是25号字体,这应该是B站默认的字体大小吧。

其次是18号字体,但也只有0.53%的比例。

最少的2号字体

此外还发现了0号字体,0号字体什么鬼?去B站看了下,难道是数据错误??

字体参数含义:12非常小,16特小,18小,25中,36大,45很大,64特别大(来源百度)

再看看发弹幕最多的人都发了多弹幕:第一名居然发了1万3千多条弹幕。我逛B站三年都没发过那么多

你呢?你们给B站贡献的多少弹幕呢?

最后上一张词云:词云中最大的居然是‘啊啊啊’,这种无意义的词可能是分词不太准确。

词云中频繁的出现233 2333等,也是分词不太准确的后果吧,但是可以看出233还是没有过气的流行网络词语

其中也出现了不少熟悉的词语,比如葛叔什么的啊

上面的数据是2015年B站拜年祭第一P的弹幕数据,本来想抓全部的弹幕的,但是第一次逻辑写错了只抓到第一P的,后来再跑的时候发现速度贼慢,不知道是不是被B站封了。然后就没跑了,比较爬虫太多的话对对方服务器会带来一定的压力的。

上面应该会有错误的数据,本人学python也没多久,也就是个刚入门的小白(或许入门都不算吧),希望自己以后能更熟练的使用python吧。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值