上次,我们做了一个B站/知乎大V排名监控工具(用python爬虫追踪知乎/B站大V排行)。
![65ced635ff0afde07dfbb50dae433b7f.png](https://i-blog.csdnimg.cn/blog_migrate/9d2afe3b3f5e2eec46565319fded2a6b.jpeg)
有读者问,这个初始数据是怎么获取的?我说是来自于一个分析项目的副产品。
这个项目就是今天给大家展示的内容:
关于 bilibili 上用户行为的统计分析
因为完成统计已经有一段时间了,所以数据并非最新的实时数据。
本项目由我们的实训生兼助教 清风小筑 完成。
获取代码、数据、图片及说明文档见文末
数据来源
分析数据基于 bilibili 网站上的公开信息,主要采集了以下数据维度:
2016年~2019年5月,每月各分类视频发布数
2019年1~5月,播放量过1w视频的标签、播放数、发布时间
2019年1~5月,播放量过10w视频的弹幕数、评论数、收藏数
2019年1~5月,播放量过50w的作者粉丝数、播放总数、视频数
之所以其中选择了 1w、10w、50w 等门槛,是因为B站的视频实在太多了,且有些数据不在列表请求中,需逐个获取。出于研究学习的目标,我们没必要完整抓取所有信息,只针对相对受欢迎的视频进行分析。
相关数据量
![06d7719f838f9fd82c65faffb020f40a.png](https://i-blog.csdnimg.cn/blog_migrate/f98d82050c31860dd881cc9af8c67fa1.png)
2019年不到半年的视频发布量,已经占到了B站全站视频量的 1/4 以上,可见其最近正进入高速增长时期。