1.数据处理
首先是将收集的弹幕数据进行整合,由于课程视频有5个part,所以要将5个part的弹幕整合到一起。
通过os方法将文件夹中的表格名称保存到列表excel_list中,便于后续的整合。
再通过concat方法将5个part合并于danmu变量中,数据的整合工作便完成了。
2.时间处理
下一步便是进行时间处理,将ctime中的时间戳进行分解
再将分解结果并入danmu变量得到相应结果
3.时间分析
3.1月份分析
在分析前将数据按月份进行聚合分组
再之后便可得到相应的折线图
由上图便可以得出在12月份中3月份的弹幕数量较多
3.2星期分析
同上可得
看来周六大家都休息了(*^_^*)
3.3小时分析
同上可得
可以得出在下午三点平均弹幕数量最多
4.用户画像
4.1用户处理
首先是将弹幕数据按照uid进行分组,并统计各个用户的弹幕数量
再将用户的等级连接至右侧
4.2弹幕内容
首先将uid进行分组,再按降序进行排序
再来看看数量第一名都发了些什么(*^_^*)
同理可得数量第二名
4.3等级分析
首先按照level进行排序,计算出有多少条id
接着进行一个柱状图的图表描绘
可见弹幕大部分来自于四级和五级的用户,大部分发弹幕的观众都是B站的粘性用户、
为了进一步验证,绘制以用户计数的柱状图
可见分布几乎是一样的,上述结论可以得到落实