数据分析36计(30)：关于 AB 实验的 1.5 万字总结-CSDN博客

本文链接：https://blog.csdn.net/Pylady/article/details/119583639

本文深入探讨了A/B测试中的常见误区，如误解p值、缺乏统计功效等问题，强调了统计功效在实验设计中的重要性。此外，介绍了实验指标构建、实验平台搭建及分析方法，包括用户级随机化实验、置信区间和外部有效性问题。文章还讨论了如何避免实验中的一些问题，如内部有效性、外部有效性、异质效应和辛普森悖论，以及如何通过元分析和多重检验来综合评估实验结果。

摘要由CSDN通过智能技术生成

实验原理

假设检验的目标是拒绝原假设，它的核心是证伪。先假设原假设成立，然后计算原假设反面出现的概率，如果概率较大，则证明原假设不成立。

对于 A/B Test 来说， p值是在实验组和对照组没有差别这个前提成立的条件下，实验仍然检测到差异(即极端事件出现)的概率。如果 p值非常小，就拒绝原假设，认为实验组和对照组没有差别这个前提是错误的。那么怎么定义非常小？这时需要显著性水平(significance level) 来做标尺。

需要注意的是，统计显著性不是实际显著性(Practical significance)。p值只能告诉你两个版本有没有差异，并不能说明实验组到底比对照组好了多少。举个例子，在某个A/B Test中，实验组相比对照组只有0.1%的提升， p =0.001，这说明这次实验是达到统计显著的，但是实验效果却只提升了0.1%。是否你会为了这0.1%的提升全量上线实验组方案，还需从成本等角度全面衡量一个实验的商业效果。因此不能仅凭统计显著性做决策。

实验误区

一类错误、二类错误和功效的定义如下：

H0：实验组之间无显著性差异
显著性水平：误报，False Negative，I 类错误，即 H0 为真但拒绝了的概率，1 - 置信水平(confidence level) = 显著性水平(, significance level)；一般设定 =5%
：漏报，False Positive， II 类错误，即 H0 为假但接受了的概率。样本量较小时，有增加漏报的可能（H0为假，但数据量少没有观测到），但是高功效需要更多的样本量，延长测试所需要的时间
统计功效 Power：H0为假且拒绝，即接受H1的概率
最小提升 lift : 差异越小，需要的样本量越多
基线转化率: Baseline越小，相同的提升度下，所需要的样本量越多

总结：当 p<alpha 时，得出拒绝 H0，接受 H1 的结论容易犯第二类错误，因此还需要结合 power 来看，即观察到 H0 为假这一判断成立的概率。

1、误解 p 值

p值并不是原假设事件发生的概率也不是拒绝原假设的概率，比如原假设为 Y1-Y2=0，p值并不是两者差异为0的概率（贝叶斯检验的概率是）。p值表示在原假设为真的条件下，比所得到的样本观察结果（检验统计量）更极端的结果出现的概率，如果概率小于alpha值，说明小概率事件发生，而我们认为小概率事件是不会发生的（或者说如果在原假设真实存在的条件下，不太应该出现这个事件，但是出现了该事件，那么更有可能是在备择假设存在的条件下产生的），那么就说明原假设错误。所以说 p 值说明不了任何事。它仅仅是以预期比较为基础的一种方法，帮助我们做出一个相对合理的决策。比如原假设一枚硬币是均匀的，但发现连续抛5次硬币都为正面，而这个事件（统计量）的概率为小于0.05（alpha值，为极端值出现或小概率事件发生的最大概率），认为这是小概率事件，不可能发生，因此这是一枚不均匀的硬币。

2、缺乏统计功效

统计功效 power=p(拒绝H0|H0为假)，解释为真实情况为H0为假时，观测结果能正确检测出来的概率，即为统计检验结果正确的‘拒绝零假设”（H0）的概率。因此当 p<alpha时，还需要看power是否达到一定的条件（样本量是否充足），才能判断是否有显著差异。因为结合上面对p值含义的解释可以发现，再微小的差异，达到足够大的样本量和测量精度，都能得到有统计学意义的P值；再大的差异，在样本量过小和测量精度不那么高的时候，也可能只能得到P>0.05。所以在实验研究中不应该唯P值是论，单看P值大小并不代表实际的差异大小，实际差异要看 effect size。实验预期是拒绝原假设，那么在实验开始前需要设定power的大小，反推出实验所需的样本量，当达到该样本量时，实验结论才会更准确。

假设检验的功效受以下几个因素影响：

样本量 (n)：其他条件保持不变，样本量越大，功效就越大。
显著性水平 (α)：其他条件保持不变，显著性水平越低，功效就越小。
两总体之间的差异：其他条件保持不变，总体参数的真实值和估计值之间的差异越大，功效就越大。也可以说，效应量（effect size）越大，功效就越大。
标准差：标准差越小，代表两组差异的趋势越稳定，越容易观测到显著的统计结果，功效越大。

统计功效的计算

原假设与备择假设如下：

令，按照二类错误的概念，假设，有