数据分析36计(30):关于 AB 实验的 1.5 万字总结

实验原理

假设检验的目标是拒绝原假设,它的核心是证伪。先假设原假设成立,然后计算原假设反面出现的概率,如果概率较大,则证明原假设不成立。

对于 A/B Test 来说, p值是在实验组和对照组没有差别这个前提成立的条件下,实验仍然检测到差异(即极端事件出现)的概率。如果 p值非常小,就拒绝原假设,认为实验组和对照组没有差别这个前提是错误的。那么怎么定义非常小?这时需要 显著性水平(significance level) 来做标尺。

需要注意的是,统计显著性不是实际显著性(Practical significance)。p值只能告诉你两个版本有没有差异,并不能说明实验组到底比对照组好了多少。举个例子,在某个A/B Test中,实验组相比对照组只有0.1%的提升, p =0.001,这说明这次实验是达到统计显著的,但是实验效果却只提升了0.1%。是否你会为了这0.1%的提升全量上线实验组方案,还需从成本等角度全面衡量一个实验的商业效果。因此不能仅凭统计显著性做决策。

实验误区

一类错误、二类错误和功效的定义如下:

0ab2a7af09aac87d19d374486ac31ea1.png
  • H0:实验组之间无显著性差异

  • 显著性水平 :误报,False Negative,I 类错误,即 H0 为真但拒绝了的概率,1 - 置信水平(confidence level) = 显著性水平(,  significance level);一般设定 =5%

  • :漏报,False Positive, II 类错误,即 H0 为假但接受了的概率。样本量较小时,有增加漏报的可能(H0为假,但数据量少没有观测到),但是高功效需要更多的样本量,延长测试所需要的时间

  • 统计功效 Power:H0为假且拒绝,即接受H1的概率

  • 最小提升 lift : 差异越小,需要的样本量越多

  • 基线转化率: Baseline越小,相同的提升度下,所需要的样本量越多

总结:当 p<alpha 时,得出拒绝 H0,接受 H1 的结论容易犯第二类错误,因此还需要结合 power 来看,即观察到 H0 为假这一判断成立的概率。

1、误解 p 值

p值并不是原假设事件发生的概率也不是拒绝原假设的概率,比如原假设为 Y1-Y2=0,p值并不是两者差异为0的概率(贝叶斯检验的概率是)。p值表示在原假设为真的条件下,比所得到的样本观察结果(检验统计量)更极端的结果出现的概率,如果概率小于alpha值,说明小概率事件发生,而我们认为小概率事件是不会发生的(或者说如果在原假设真实存在的条件下,不太应该出现这个事件,但是出现了该事件,那么更有可能是在备择假设存在的条件下产生的),那么就说明原假设错误。所以说 p 值说明不了任何事。它仅仅是以预期比较为基础的一种方法,帮助我们做出一个相对合理的决策。比如原假设一枚硬币是均匀的,但发现连续抛5次硬币都为正面,而这个事件(统计量)的概率为 小于0.05(alpha值,为极端值出现或小概率事件发生的最大概率),认为这是小概率事件,不可能发生,因此这是一枚不均匀的硬币。

2、缺乏统计功效

统计功效 power=p(拒绝H0|H0为假),解释为真实情况为H0为假时,观测结果能正确检测出来的概率,即为统计检验结果正确的‘拒绝零假设”(H0)的概率。因此当 p<alpha时,还需要看power是否达到一定的条件(样本量是否充足),才能判断是否有显著差异。因为结合上面对p值含义的解释可以发现,再微小的差异,达到足够大的样本量和测量精度,都能得到有统计学意义的P值;再大的差异,在样本量过小和测量精度不那么高的时候,也可能只能得到P>0.05。所以在实验研究中不应该唯P值是论,单看P值大小并不代表实际的差异大小,实际差异要看 effect size。实验预期是拒绝原假设,那么在实验开始前需要设定power的大小,反推出实验所需的样本量,当达到该样本量时,实验结论才会更准确。

假设检验的功效受以下几个因素影响:

样本量 (n):其他条件保持不变,样本量越大,功效就越大。
显著性水平 (α):其他条件保持不变,显著性水平越低,功效就越小。
两总体之间的差异:其他条件保持不变,总体参数的真实值和估计值之间的差异越大,功效就越大。也可以说,效应量(effect size)越大,功效就越大。
标准差:标准差越小,代表两组差异的趋势越稳定,越容易观测到显著的统计结果,功效越大。

统计功效的计算

原假设与备择假设如下:

令,按照二类错误的概念,假设 ,有

14b431dc884970a83fd1179e2c7f27fe.png

bbd5de9ac3926fb9e3d82a28fcbcc071.png

代表 A 组的样本数量, 代表 B 组的样本数量。K 为 与 的比值,这个值一般情况下,我们都默认为1,即 A、B 两组的用户数量相等,方便做严谨的A

  • 3
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值