python分析b站_实战 | Python模型分析B站优质up主

最新推荐文章于 2024-05-04 12:51:05 发布

莉莉莉莉酱

最新推荐文章于 2024-05-04 12:51:05 发布

阅读量938

点赞数 1

文章标签： python分析b站

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_33089345/article/details/113506931

版权

作者 | 远辰

来源 | 数据不吹牛

不管前浪还是后浪，能够浪起来的才算是好浪。

相信大家最近都被号称“浪里白条”的b站刷了不止一次屏。这次咱们先不谈价值观，主要从数据的角度，扒一扒让b站能够在浪里穿梭的资本——优质UP主。

本文在RFM模型基础上做了调整，尝试用更符合b站特性的IFL模型，找到各分区优质up主。整个过程以分析项目的形式展开，最终附上了完整源数据和代码，方便感兴趣的同学练手。

format,png

项目概览

分析目的

对2019年1月~2020年3月发布的视频进行分析，挑选出视频质量高，值得关注的up主。

数据来源

分析数据基于 bilibili 网站上的公开信息，主要爬取了以下数据维度：

2019年1月~2020年3月，科技区播放量过5w视频的分区名称、作者名称、作者id、发布时间、播放数、硬币数、弹幕数、收藏数、点赞数、分享数、评论数，共计50130行。

源数据下载链接

完整数据源和代码链接：https://pan.baidu.com/s/1RIxOxh-TFMey9sGvZLVuJg提取码：bhh2

format,png

数据概览

视频信息表：

format,png

coins：投硬币数

danmu：弹幕数

favorite：收藏数

likes：点赞数

replay：评论数

share：分享数

view：播放量

各字段数量：

format,png

缺失值数量：

format,png

format,png

数据清洗删除空值df=df.dropna()df.info()

共删除了19行数据，剩余50111行数据

format,png

删除重复值df=df.drop_duplicates()df.info()

删除了1312行重复的数据，剩余数据量48799行

format,png

提取所需关键词

df=df[['分区','author','date','coins','danmu','favorite','likes','replay','share','view']]df.head()

format,png </

最低0.47元/天解锁文章

莉莉莉莉酱

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
python分析b站_实战 | Python模型分析B站优质up主

作者 | 远辰来源 | 数据不吹牛不管前浪还是后浪，能够浪起来的才算是好浪。相信大家最近都被号称“浪里白条”的b站刷了不止一次屏。这次咱们先不谈价值观，主要从数据的角度，扒一扒让b站能够在浪里穿梭的资本——优质UP主。本文在RFM模型基础上做了调整，尝试用更符合b站特性的IFL模型，找到各分区优质up主。整个过程以分析项目的形式展开，最终附上了完整源数据和代码，方便感兴趣的同学练手。项目概览分析目...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。