作者 | 远辰
来源 | 数据不吹牛
不管前浪还是后浪,能够浪起来的才算是好浪。
相信大家最近都被号称“浪里白条”的b站刷了不止一次屏。这次咱们先不谈价值观,主要从数据的角度,扒一扒让b站能够在浪里穿梭的资本——优质UP主。
本文在RFM模型基础上做了调整,尝试用更符合b站特性的IFL模型,找到各分区优质up主。整个过程以分析项目的形式展开,最终附上了完整源数据和代码,方便感兴趣的同学练手。
项目概览
分析目的
对2019年1月~2020年3月发布的视频进行分析,挑选出视频质量高,值得关注的up主。
数据来源
分析数据基于 bilibili 网站上的公开信息,主要爬取了以下数据维度:
2019年1月~2020年3月,科技区播放量过5w视频的分区名称、作者名称、作者id、发布时间、播放数、硬币数、弹幕数、收藏数、点赞数、分享数、评论数,共计50130行。
源数据下载链接
完整数据源和代码链接:https://pan.baidu.com/s/1RIxOxh-TFMey9sGvZLVuJg提取码:bhh2
数据概览
视频信息表:
coins:投硬币数
danmu:弹幕数
favorite:收藏数
likes:点赞数
replay:评论数
share:分享数
view:播放量
各字段数量:
缺失值数量:
数据清洗删除空值df=df.dropna()df.info()
共删除了19行数据,剩余50111行数据
删除重复值df=df.drop_duplicates()df.info()
删除了1312行重复的数据,剩余数据量48799行
提取所需关键词
df=df[['分区','author','date','coins','danmu','favorite','likes','replay','share','view']]df.head()
</