做AB实验的核心过程就是做一个假设检验,为了让这个假设检验可以支持接下来的决策,我们通常需要计算三个值,P值、效应量和统计功效。
P值跟显著性水平比较(一般取0.05),若结果具有统计显著性(P<0.05),那么还需要继续计算其效应量(Effect_size);如果结果不具有统计显著性(P<0.05),并且还需要继续进行决策的话,那么需要计算功效(Power)。
P值
P值的含义就是在原假设的分布下,出现实验样本情况的概率。
通俗地讲就是,我假设你就是一个成绩普通的学生(假设普通学生的成绩f服从均值70分,标准差10分的正态分布),然后随机抽取了你的几次成绩,一算下来平均90分。那么在均值是70分,标准差是10分的分布情况下,抽取到90分的概率P=(1-95%)/2=2.5%。
在假设检验中,我们通常使用各种参数检验或者非参数检验来计算P值。
效应量(effect size)
效应量代表样本间差异大小的指标,毕竟世界上没有两篇一毛一样的叶子,只有样本足够多,一定可以检测出任务两类样本的显著差异。
这个时候就需要