大家日常生活中有时会需要抽签上场演讲、答辩、汇报或者即兴表演,如果是自娱自乐那还好,万一是诸如毕业论文答辩这样的重要场合,各种抽签玄学必然会广为流传。
想必大家都听过类似的说法:
“排名靠前才有优势,讲的内容不容易重复,评委们都会认真听,得分能高一些,排在后面评委都困了不会给高分的。”
“你可别乱说,苏格拉底最大的麦穗故事没听过吗,评委都喜欢把高分留在最后面。”
“哎呀你们都是扯淡,答辩都是多人评分,还去掉最高分和最低分,没有你们说的那么玄乎,前后都差不太多好吗。”
那么这些说法到底是不是真的有意义呢?今天我们用一次竞赛实际数据做一次小小的实验。
数据来源:某头部金融机构内部比赛评分。
数据说明:五个一组,即每评定五位选手之后评委休息讨论。
参考文献:
https://blog.csdn.net/yangwohenmai1/article/details/85071683
首先我们来看一下基本的数据情况:
sz=data['总分']
swz=data['未平滑总分']
plt.plot(sz)
plt.plot(swz, color="red")
plt.show()
print("variance:%f" % np.var(sz))
print("variance:%f" % np.var(swz))
虽然这个图(蓝色:去除最高分最低分之后选手平均分。红色:原始平均分)感觉不是特别明显,但是从方差来看,去除最高最低分之后数据波动性的确是下降了(11.771769→10.849152),那么这个对排序是否有影响呢?
再仔细观察一下,似乎先上场(1-10)号选手的得分波动率比后上场的选手波动率更大呢,而且这个一上一下的得分模式是什么意思,难不成存在均值回归(mean-reversion)特性吗?等一下,貌似有点跑题,本次小实验我们明明是想研究一下排序到底对选手得分有无实质性影响,好吧,那我们继续。
首先假设忽略异方差带来的影响,“强行”做线性回归,看看是什么样子呢?
timemodel = linear_model.LinearRegression()
timemodel.fit(timex,<