目录
一、实现目标
根据数据集中的up主视频播放信息,参考RFM模型,运用K-Means聚类方法对b站up主进行分群,比较不同up主的特征,挖掘出值得关注的up主、高价值的up主群体
二、分析方法
IFL模型
I(Interaction_rate): I值反映的是平均每个视频的互动率,互动率越高,表明其视频更能产生用户的共鸣,使其有话题感。 **I=(总弹幕数+总评论数)/总播放量/统计范围内视频数量
F(Frequence): F值表示的是每个视频的平均发布周期,每个视频之间的发布周期越短,说明内容生产者创作视频的时间也就越短,创作时间太长,不是忠实粉丝的用户可能将其遗忘。 **F=(统计范围内最晚发布视频时间-最早发布视频时间)/发布视频的数量
L(Like_rate): L值表示的是统计时间内发布视频的平均点赞率,越大表示视频质量越稳定,用户对up主的认可度也就越高。 **L=(点赞数X1+投币数X2+收藏数X3+分享数X4)/播放量X发布视频数
三、数据预处理
分析数据基于 bilibili 网站上的公开信息,主要采集了以下数据维度:
2019年1月~2020年3月,科技区播放量过5w视频的分区名称、作者名称、作者id、发布时间、播放数、硬币数、弹幕数、收藏数、点赞数、分享数、评论数,一共50130行。
数据来自 公众号 数据不吹牛
去重
缺失值分析与处理
异常值分析与处理
可视化展示
构建特征值
构造F值
构造IFL分析数据集
构造L值
数据标准化
运用K-Means聚类方法
建立模型
聚类结果特征分析
结论分析
从案例结果来看,所有的渠道被分为3个类别,每个类别的样本量分别为:265、1082、204,对应占比分别为:17%、70%、13%。
类别1:索引为0的up主
该类别的I值略高于平均值,证明与观众的互动率较高,话题性也较高;但F值明显高于其他两类,创作周期较长; L值平均点赞率良好,仍有可提升空间;该类别大部分为业余up主,处于成长期。
类别2:索引为1的up主
该部分占了70%,是该分区的主要群体;该类别的I值稍低于平均值,与观众的互动良好;F值为三者中最低,更新频率高,活跃程度高; 但L值平均点赞率是短板,较低,暂未能获得大量观众的点赞、投币、收藏;需要提高视频稿件的质量,创作符合观众口味的视频,收获更多的三连
类别3:索引为2的up主
该部分up主群体I值远高于平均值,受到观众的喜爱,话题感十足;视频更新稳定,在保证不拖更的同时,收获到观众大量的三连(点赞、投币、收藏); 该类up主粉丝数目也大部分超过十万,能够提供高质量且稳定的视频稿件,为该分区的高价值up主群体。
投稿不易,感谢点赞!