df = pd.read_excel(‘披荆斩棘的哥哥.xlsx’)
数据字段信息
df.info()
<class ‘pandas.core.frame.DataFrame’> Int64Index: 97331 entries, 4 to 33794 Data columns (total 7 columns): # Column Non-Null Count Dtype — ------ -------------- ----- 0 ids 97331 non-null string 1 uid 97331 non-null Int64 2 content 97331 non-null string 3 time 97331 non-null Int64 4 v2_up_count 97331 non-null Int64 5 时间 97331 non-null Int64 6 上中下 97331 non-null string dtypes: Int64(4), string(3) memory usage: 6.3 MB
在数据中,各字段含义如下:
ids
: 弹幕id
uid
: 用户id
content
:弹幕内容
time
:弹幕发送时间(相对于本集开始后的毫秒)
v2_up_count
:弹幕点赞数
时间:弹幕发送时间(分钟)
上中下:归属第1期的上中下三部分之一
# 数据预览
df.sort_values(by=[‘上中下’,‘time’], inplace=True) # 按照上中下集和time排序
df.head()
复制代码
(
df.groupby(‘上中下’).agg(弹幕数=(‘ids’, ‘count’),
时长=(‘时间’, ‘max’)
).reset_index().style
.bar(subset=‘弹幕数’, align=‘zero’)
.bar(subset=‘时长’, color=‘orange’, align=‘zero’)
)
复制代码
基本上第1期的每集弹幕都是拉满状态(1分钟360条)
2. 弹幕整体词云
这里用的是此前的词云制作工具《》进行绘制
从整体词云,我们可以发现观众老爷们基本都是在哈哈哈的笑声与啊啊啊的赞叹声中看完的。
不得不说,这个综艺很快乐
我们去掉这些拟声词
以及一些溢美之词
,再看看,可以发现大湾区(主要是指陈小春、谢天华、林晓峰、张智霖、梁汉文古惑仔
组合)、赵文卓、李承铉、欧阳靖和张云龙等嘉宾们最受弹幕用户喜爱!
3. 点赞最多的弹幕
点赞前10的弹幕都集中在第1期的中集部分,且绝大部分(前4条都是)集中在赵文卓出场表演的那段,把《流星雨》唱成流星锤
,哈哈哈!
(
df.sort_values(by=‘v2_up_count’, ascending=False).head(10).style
.hide_index()
.hide_columns([‘ids’,‘uid’,‘time’])
)
复制代码
点赞第三的“陈小春:女儿真好
”是在介绍赵文卓时的朋友送祝福阶段赵文卓的儿子女儿的祝福时镜头给到的陈小春,然后有网友给出的经典弹幕,很温馨有没有!
“终于知道戚薇的快乐了
”这条高赞弹幕一定是一个女性网友想出来了,出自39分钟区间李承铉演唱《天上飞》时,帅炸全场!
4. 最疯狂的弹幕狂魔
看到弹幕里有不少二刷、三刷的多刷观众,有多少观众是弹幕狂魔,我们来探一探!
df.groupby(‘uid’)[‘ids’].count().sort_values(ascending=False).to_frame(‘弹幕数’).reset_index().head()
复制代码
我们可以看到,有网友居然在4个半小时的第1期里一共打出了176条弹幕,平均0.65条弹幕/分钟
,毫无疑问的弹幕狂魔!
抽样20条该网友的弹幕内容,我们发现他是真的爱这个节目,而不是只为某个哥哥而来!
(
df[df[‘uid’]==3752327606].sample(18).style
.hide_index()
.hide_columns(subset=‘ids’)
)
复制代码
5. 弹幕最热的哥哥们
那么第1期三集33位
哥哥们共4个半小时
的表演,最受弹幕欢迎的是哪几位哥哥呢?
从弹幕整体词云可看到关键词最多的是大湾区(主要是指陈小春、谢天华、林晓峰、张智霖、梁汉文古惑仔
组合)、赵文卓、李承铉、欧阳靖和张云龙。
大湾区的哥哥们
df[df[‘content’].astype(‘str’).str.contains(‘大湾区|小春|春哥|谢天华|林晓峰|张智霖|梁汉文’)]
复制代码
赵文卓
df[df[‘content’].astype(‘str’).str.contains(‘赵文卓|卓哥|文卓’)]
复制代码
哈哈哈
,笑死
,大威天龙
李承铉
那个,戚薇的快乐李承铉,直呼太帅了
df[df[‘content’].astype(‘str’).str.contains(‘李承铉|戚薇’)]
复制代码
最后
不知道你们用的什么环境,我一般都是用的Python3.6环境和pycharm解释器,没有软件,或者没有资料,没人解答问题,都可以免费领取(包括今天的代码),过几天我还会做个视频教程出来,有需要也可以领取~
给大家准备的学习资料包括但不限于:
Python 环境、pycharm编辑器/永久激活/翻译插件
python 零基础视频教程
Python 界面开发实战教程
Python 爬虫实战教程
Python 数据分析实战教程
python 游戏开发实战教程
Python 电子书100本
Python 学习路线规划
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!