大数据文摘投稿作品
首发平台:公众号"猪栏守望者"
作者:林晓胜
在昨天的盛大party后,《乐队的夏天》终于顺利收官。这个燃爆了整个夏天的综艺是否是今年最火的综艺节目虽然不得而知,但是不可否认,将乐队和摇滚又重新带到了公众面前。
至少对于我,很感谢有这么一个节目,可以让我接触到不同类型的音乐,认识这么多优秀的乐队,知道坚持做自己喜欢的事是一件多么幸福的事。
在昨天的终结篇中,马东根据现场的投票,顺利颁发出了杀出重围的5只最高票乐队。
当然,每个人心中一定都有一只自己觉得最强的乐队,我也一样。所以,我决定爬取所有场次参赛歌曲的投票数据,用python进行一次分析。然后参考数据分析的结果,给出我心目中,或许更加公允的另外一份Hot5名单。
当然,我也希望这份分析结果能够解答我自己对于乐队的夏天的一些疑问,比如,痛仰乐队的我愿意为何表现不佳?一直被专业乐迷和其他乐队奉为偶像的海龟先生,为什么最终止步5强?
还有一些有趣的小结论,一起看看吧!
第一步:数据采集
数据分析数据分析,没有数据就没有分析。
网络上没有公开的详细得票、排名数据,只好自己整理了。首先购买爱奇艺会员,不然很长时间都消耗在广告上了。然后用2.5倍速播放(这么听歌还挺带感的),然后看到这一幕,按住锁屏和音量键+,咔嚓,数据收集到了!
最后手机相册就变成现在这样?
最后再填到一个Excel表里面,数据就有啦!
它大概长这个样子?
一共有6个sheet,对应6场比赛,字段分别是:[场数, 出场顺序, 乐队, 歌曲, 超级乐迷得分, 专业乐迷得分, 大众乐迷得分, 总得分, 排名, 是否晋级下一轮]
第二步:读取数据
在读取数据之前,先导入分析的工具包
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
为了显得有一点点审美,我用取色器取了乐队的夏天主KV上面的颜色,便于后面可视化来使用。
# 配置乐队的夏天主题色
purple = (0.22,0.09,0.59) # 紫色yellow = (0.99,0.89,0.27) # 黄色green = (0.36,0.94,0.55) # 绿色blue = (0.06,0.24,0.78) # 蓝色red = (0.98,0.31,0.36) # 红色
环境设置完了,第一步是导入数据
# 读取数据
data1 = pd.read_excel('/.../乐队的夏天.xlsx','第一场')
data2 = pd.read_excel('/.../乐队的夏天.xlsx','第二场两两PK赛')
data3 = pd.read_excel('/.../乐队的夏天.xlsx','第三场累计积分赛')
data4 = pd.read_excel('/.../乐队的夏天.xlsx','第四场复活赛')
data5 = pd.read_excel('/.../乐队的夏天.xlsx','第五场9进7')
data6 = pd.read_excel('/.../乐队的夏天.xlsx','第六场总决赛')
观察一下数据吧。
# 观察数据
data1.info()data1.head()
以第一场的数据为例为例,可以看到字段和数据的行数,其中得分有(31-27=4)行数据为空,进入第三步。
第三步:数据清洗
竟然有空数据,先看看是怎么回事。