abtest-显著性差异(significance test)

最新推荐文章于 2024-07-21 10:42:56 发布

SAN_YUN

最新推荐文章于 2024-07-21 10:42:56 发布

阅读量1.5w

点赞数 15

文章标签： python

本文链接：https://blog.csdn.net/SAN_YUN/article/details/84805128

版权

目标转换率变化区间估计：在做A/B test的时候，抽样得到的数据并不能准确反映整体的真实水平，即样本得到的估计是有偏差的，因此需要去评估这个值可能的变化区间。例如通过区间估计得到：

A方案转换率为：6.5% ± 1.5%

B方案转换率为：7.5% ± 1.5%

方案胜出概率估计：由于最终有意义的是确立胜出的版本，然而并不是所有的实验都能做到样本足够大，区分度足够高的，因此确定版本胜出的概率，很多英文资料里面记为Chance to beat baseline，即在给定转换率下，变体版本的实际转换率高于参展版本（默认是原始版本）的实际转换率的可能性。在实验之前需要设定一个阈值（称为置信度），某版本胜出的可能性高于这个值并且稳定时，便可以宣布该版本胜出。置信度越高，结果的可靠信越高；随着置信度的增加实验时间将会变长。

我们使用统计学理论计算Z检验和区间估计计算出误差范围及胜出概率

4.1 Z检验计算胜出概率

并不是所有的实验都能做到样本足够大，区分度足够高的，可使用统计学的假设验证。

以转化率为例。我们运行A/B Testing 一周，分别对1000个样本进行了测试。A的转化率为7.5%，B的转化率为9%，如下表：

版本	总访问用户数	注册用户数	转换率
A	1000	75	7.5%
B	1000	90	9%

我们能够肯定B比A好呢，有多大的可能是因为一些随机的因素导致这样的区别呢？

假设验证可以有效的帮助我们回答这个问题。首先假设B的效果不会比A好，然后试图通过证据(样本)来推翻这个假设，如果样本足以推翻假设，那么我们就可以认为实验完成了，否则我们需要继续实验或者干脆就接受这个假设并把B的code扔掉了事。

定义

X = Pb – Pa为两个版本实际转换率的差异度，Pb是B的转化率，Pa是A的转化率，这里我们并不知道D的取值，它的概率分布未知，我们先来定义我们的假设，即B不比A好。（如果我们的证据能够推翻这个假设，那么就说明B比A好，我们就应该用B的设计方案）

原假设 H0: Pb-Pa<=0

备则假设：H1：Pb- Pa>0

一个用户，要么注册，要么不注册。所以A和B都是满足二项分布的。即，

A ~ B(N, Pa)

B ~ B(N, Pb)

N是样本数目。

根据中心极限定律，A和B可以近似为正态分布，那么，我们关注的随机变量X = (Pb–Pa)的分布也为正态分布(正态分布的累加性质):

X ~ N (0, Pb(1-Pb)/N + Pa(1-Pa)/N)

期望取0，是因为这是我们的假设。

我们可以对上述正态分布进行标准化，

然后，我们选择5%的区间作为拒绝域，即，如果X标准化后的值落在了最右端5%的面积里面，那么我们可以具有很强的信心(1-5%=95%)来拒绝我们的假设H0，即，判定B比A有效。

假设X标准化后的随机变量为Z，也可以根据标准分公式，

由于备则假设里面的符号是“>”，因此采用右尾检验，拒绝域为Z>Za

我们可以计算出，Z = 1.22。也就是说随机变量X的取值在95%点(1.645)的左边。这个值对应的概率大约是89%。也就是说，89%的概率下B比A好。但我们需要的标准是95%，所以上述样本不足以得出B比A好的结论。

正如之前所说，这种情况下，我们需要做更多实验。于是，我们又做了一周，A和B分别得到了2000个样本，转化率不变。这个时候我们有信心认为B比A好了吗？

版本	总访问用户数	注册用户数	转换率
A	2000	150	7.5%
B	2000	180	9%

仍然是套用上述公式求Z值，z = 1.72。超出了1.645 (95%信心点)，这个时候我们有了足够的信心来相信B比A好。到此为止，实验结束。

另外，如果转化率变化不大，那么通过公式我们可以反推所需要的实验数目。

4.2 区间估计计算查范围

对于某个版本转换率范围的计算，在指定置信度的前提下，可以通过参数估计来计算求得。

根据区间估计的定义，在1－α置信度下，总体均值μ的置信区间为：

即：

从而：

即在1－α置信度下，μ的置信区间为：

取α=0.05，各个版本的参数代入上式可求得转换率的变换范围

上面的计算是否陌生又熟悉？是否还给老师了？没关系，下面给你补一补：

5、相关统计学理论

在介绍区间估计和Z检验之前，先回顾一下几个概念：

5.1 正态分布

若随机变量X从一个位置参数为

、尺度参数为

概率分布，记为：

称X服从正态分布，则其概率密度函数为

正态分布的数学期望值或期望值

等于位置参数，决定了分布的位置；其方差

的开平方或标准差于尺度参数，决定了分布的幅度。

正态分布中一些值得注意的量：

· 密度函数关于平均值对称
· 平均值与它的众数（statistical mode）以及中位数（median）同一数值。

· 函数曲线下68.268949%的面积在平均数左右的一个标准差范围内。
· 95.449974%的面积在平均数左右两个标准差

的范围内。

· 99.730020%的面积在平均数左右三个标准差

的范围内。

· 99.993666%的面积在平均数左右四个标准差

的范围内。

正态分布的标准化
对一般的正态分布：X~N(m,s2)作变量代换：

上式表明，任一个正态变量X经过标准化变换(X-μ)/σ后都归一到标准正态变量U。这里标准化变换是指正态变量减去其均值后再除以相应的标准差。对此，我们称为正态分布的标准化。
结合标准正态分布的计算公式得出下列正态分布概率的计算公式(可见标准化后没有不等于符号)：

例1.（多选）设X-N(5,4),则P(2<X<3)=（　）。
A．φ(1.5)-φ(1)
　　B．φ(1)-φ(1.5)
　　C．φ(-1)-φ(-1.5)
　　D．φ(-1.5)-φ(-1)
选AC。P(2<X<3)=

标准化之后，我们可以通过查询正态分布表获得X <= 0（映射到Z来查询）的概率。

5.2 中心极限定理

正态分布有一个非常重要的性质：在特定条件下，大量统计独立的随机变量的平均值的分布趋于正态分布，这就是中心极限定理

5.3 二项分布

即重复n次的伯努利试验，记为B(n, p)。在每次试验中只有两种可能的结果，而且是互相对立的，是独立的，与其它各次试验结果无关，结果事件发生的概率在整个系列试验中保持不变，则这一系列试验称为伯努利实验

如果n足够大，那么分布的偏度就比较小，那么B(n,p)的一个很好的近似是正态分布：

5.4 区间估计

区间估计是参数估计的一种，依据抽取的样本，根据一定的正确度与精确度的要求，构造出适当的区间，作为总体分布的未知参数或参数的函数的真值所在范围的估计。例如人们常说的有百分之多少的把握保证某值在某个范围内，即是区间估计的最简单的应用。

则称：

1-α是置信度，置信度也称为置信概率

置信度1－α下θ的置信区间：

α称为显著性水平

总体服从正态分布,σ2已知时

当

2013-11-2 09:42 上传

下载附件 (765 Bytes)

时，有

，

根据区间估计的定义，在1－α置信度下，总体均值μ的置信区间为：

即：

从而

即在1－α置信度下，μ的置信区间为：

例1：已知某零件的直径服从正态分布，从该批产品中随机抽取10件，测得平均直径为202.5mm，已知总体标准差σ=2.5mm，试建立该种零件平均直径的置信区间，给定置信度为0.95。

=202.5, n=10, 1－α=0.95

解：已知

查标准正态分布表，得μ（α/2）=1.96

所以在1－α置信度下，μ的置信区间为

即

计算结果为：[200.95,204.05]

5.5、统计检验的基本原理

统计检验是先对总体的分布规律作出某种假说，然后根据样本提供的数据，通过统计运算，根据运算结果，对假说作出肯定或否定的决策。如果现要检验实验组和对照组的平均数（μ1和μ2）有没有差异，其步骤为：

1．建立虚无假设，即先认为两者没有差异，用 H0:μ1 = μ2 表示；

2．通过统计运算，确定假设 H0 成立的概率 P。

3. 根据 P 的大小，判断假设 H0 是否成立。

双尾、右尾、左尾：描述检验是否涉及频率分布的双侧（双尾）或只是单侧。如果备择假设表达式中包合≠（不等于），需要双尾检验。如果包含<（小于）需要左尾检差验，包含>（大于），需要右尾检验。卡方检验通常是双尾检验。

检验类型	临界值	拒绝域
左尾检验	-Za	Z<-Za
右尾检验	Za	Z>Za
双尾检验	-Za/2和Za/2	Z<-Za/2或者Z>Za/2

5.5.1 Z检验

　　Z检验法适用于大样本（样本容量大于30）的两平均数之间差异显著性检验的方法。它是通过计算两个平均数之间差的Z分数来与规定的理论Z值相比较，看是否大于规定的理论Z值，从而判定两平均数的差异是否显著的一种差异显著性检验方法。其一般步骤：

　　第一步：建立虚无假设 H0:μ1 = μ2 ，即先假定两个平均数之间没有显著差异，

　　第二步：计算统计量Z值，对于不同类型的问题选用不同的统计量计算方法，

如果检验来自两个的两组样本平均数的差异性，从而判断它们各自代表的总体的差异是否显著。其Z值计算公式为：

其中：

· 是样本1，样本2的平均数；

· S1,S2是样本1，样本2的标准差；

· n1,n2是样本1，样本2的容量。

第三步：比较计算所得Z值与理论Z值，推断发生的概率，依据Z值与差异显著性关系表作出判断。如下表所示：

第四步：根据以上分析，结合具体情况，作出结论。

例：某项教育技术实验，对实验组和控制组的前测和后测的数据分别如下表所示，比较两组前测和后测是否存在差异。

由于n>30，属于大样本，所以采用Z检验。由于这是检验来自两个不同总体的两个样本平均数，看它们各自代表的总体的差异是否显著，所以采用双总体的Z检验方法。

　　计算前测Z的值：

∵|Z|=0.658＜1.96

∴ 前测两组差异不显著。

　　再计算后测Z的值:

∵|Z|= 2.16＞1.96

∴ 后测两组差异显著。

5.5.2 P值（P value）

就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小，说明原假设情况的发生的概率很小，而如果出现了，根据小概率原理，我们就有理由拒绝原假设，P值越小，我们拒绝原假设的理由越充分。总之，P值越小，表明结果越显著。但是检验的结果究竟是“显著的”、“中度显著的”还是“高度显著的”需要我们自己根据P值的大小和实际问题来解决。

　显著性检验的基本思想可以用小概率原理来解释。

　　1、小概率原理：小概率事件在一次试验中是几乎不可能发生的，假若在一次试验中事件事实上发生了p<a。那只能认为事件不是来自我们假设的总体，也就是认为我们对总体所做的假设不正确。

　　2、观察到的显著水平：由样本资料计算出来的检验统计量观察值所截取的尾部面积为p。这个概率越小，反对原假设，认为观察到的差异表明真实的差异存在的证据便越强，观察到的差异便越加理由充分地表明真实差异存在。

　　3、检验所用的显著水平：针对具体问题的具体特点，事先规定这个检验标准。

　　4、在检验的操作中，把观察到的显著性水平与作为检验标准的显著水平标准比较，小于这个标准时，得到了拒绝原假设的证据，认为样本数据表明了真实差异存在。大于这个标准时，拒绝原假设的证据不足，认为样本数据不足以表明真实差异存在。

　　5、检验的操作可以用稍许简便一点的作法：根据所提出的显著水平查表得到相应的值，称作临界值，直接用检验统计量的观察值与临界值作比较，观察值落在临界值所划定的尾部内，便拒绝原假设；观察值落在临界值所划定的尾部之外，则认为拒绝原假设的证据不足。

5.4.3 标准正态分布表Z值查询方法

正态分布表中间的数字表示面积，最左边一列表示Z值得整数部分，最上边一列表示Z值得小数部分。

例：当给定了检验的显著水平a=0.05时，如果要检验是否相等，就是双侧检验，允许左右各有误差，即a/2=0.025，此时要查尾部面积是0.025时的Z值。

表中间的数字指从

到参考点的面积，而Z值是指从中间均值所在位置往右计算的长度，所以当Z=0时，中间的面积是0.5。

Z0.025即表示左边的面积为1-0.025=0.975时对应的Z值，首先在表中间找到0.975，水平对应的最左边列的值为1.9，垂直对应最上边行的值为0.06，两数相加即为Z0.025=1.96。

Z值只是一个临界值，他是标准化的结果，本身没有意义，有意义的在于在标准正态分布模型中它代表的概率值。通过查表便可以知道。

SAN_YUN

关注

15
点赞
踩
52

收藏

觉得还不错? 一键收藏
3
评论
abtest-显著性差异(significance test)

目标转换率变化区间估计：在做A/B test的时候，抽样得到的数据并不能准确反映整体的真实水平，即样本得到的估计是有偏差的，因此需要去评估这个值可能的变化区间。例如通过区间估计得到： A方案转换率为：6.5% ± 1.5% B方案转换率为：7.5% ± 1.5%方案胜出概率估计：由于最终有意义的是确立胜出的版本，然而并不是所有的实验都能做到样本足够大，...
复制链接

扫一扫