作者:livan
来源:数据python与算法
前言
如下图所示,样本显著性的计算是在试验结尾部分的重要步骤,决定了试验是否有效:
A-A-B三组数据观察n天后,会产生3组数据,我们接下来的任务就是计算这三组数据的统计效果,进而确定哪个方案效果好……
主要是对试验过程中的数据以及历史数据进行统计计算,如下图:
双样本的z检验计算
Z检验的优势在于使用总体方差,其整体效果比t检验和卡方检验效果明显,t检验采用的是样本方差,在计算时倾向于小数据量的运算,卡方检验是对两个数值的比较,其精准度较t检验又降一级。
1)A-A组z检验:
A-A组试验的目的是为了确认我们的随机样本分流是否平衡,如果A-A组试验存在显著性差异,则表示分流失败,试验的可信度降低,严重情况下存在试验失效的风险,因此我们需要进行A-A测试计算:
A组试验作为对照组试验存在历史数据,因此我们可以通过历史数据进行方差计算,得到总体方差,在AB测试中存在一个基本的假设,即各组试验的方差是一致的,即:数据的样本分布和总体分布一致,变化的是各个试验组的均值大小。所以不仅是现在的A-A,甚至下文的A-B,都可以使用历史数据中的方差值。
A-A试验的另一个假设即:两组试验是独立进行的。所以我们在进行计算时需要使用双样本独立性检验,即:
在进行AB测试的统计分析时,我们需要将方差计算转化成概率形式,因此,公式变化为:
公式中的σ22为总体方差,p2为总体指标的平均值。
公式中方差的计算使用的是试验开始前一个月的历史数据,因此试验设计时需要获取到历史数据。
根据z值表可以确定出对应的P值,并将P值与显著性水平进行比较,以确定两个方案是否有显著性差异。
我们假设客户允许的置信水平为90%,则双尾试验中α=0.05:
如果P>0.05,则接受原假设μ1=μ2,表示A-A两个组的差异不显著,此次试验分流效果随机,A-B试验可信度较高。
如果P<0.05,则拒绝原假设μ1≠μ2,表示A-A两个组的差异显著,此次试验分流的效果不随机,A-B试验的可信度不足。
2)A-B组z检验:
A-A试验的目的是为了查看显著性,即谁高谁低并没有太多差异,所以在进行显著性检验时可以采用双尾检验,只进行是否显著的查看,但是在A-B试验中,我们除了查看两个试验组是否有显著性差异,同时还需要了解A、B两组试验哪个表现更好,此处可以直接用单尾假设检验(μb>μa):
如果单尾假设检验不显著,则拒绝原假设,试验中B方案需要被淘汰;
如果单尾假设检验显著,则接受原假设,试验中B方案可以显著提高数据指标;
假设用户的置信水平为90%,则单尾试验中α=0.1:
如上图,在单尾试验中,显著性水平α=0.1,然后基于显著性水平得到标准Z0.1的值,我们将计算出的z值与标准Z0.1进行比较:
如果Z>Z0.1,则接受原假设,AB方案有显著性差异;
如果Z<=Z0.1,则拒绝原假设,AB方案没有显著性差异;
双样本的t检验计算
1)A-A组t检验:
Z检验中我们通过计算总体方差得到z值,与此同时,随着试验的不停推进,样本数据也会积累出一定的数据量,使用样本方差,我们也可以进行一定的显著性比较,在A-A试验中t检验的计算过程得出如下:
由公式可以看出,t检验与z检验在公式上的差异不大,只是方差的计算方式不同,我们通过对样本的计算得出了试验对应的值,在概率类计算条件下得出公式为:
对应计算结果分析与Z值检验类似,通过t值找到P值:
如果P>0.05,则接受原假设μ1=μ2,表示A-A两个组的差异不显著,此次试验分流效果随机,A-B试验可信度较高。
如果P<0.05,则拒绝原假设μ1≠μ2,表示A-A两个组的差异显著,此次试验分流的效果不随机,A-B试验的可信度不足。
2)A-B组t检验:
A-B测试的方法中,除了z检验,我们也可以直接使用t检验进行,通过t的检验效果,计算出是否显著,其计算逻辑与z的A-B测一致,只是方差做了替换。
◆ ◆ ◆ ◆ ◆
麟哥新书已经在京东上架了,我写了本书:《拿下Offer-数据分析师求职面试指南》,目前京东正在举行100-50活动,大家可以用相当于原价5折的预购价格购买,还是非常划算的:
点击下方小程序即可进入购买页面:
数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以扫描下方管理员二维码,进群前一定要关注公众号奥,关注后让管理员帮忙拉进群,期待大家的加入。
管理员二维码:
猜你喜欢
● 麟哥拼了!!!亲自出镜推荐自己新书《数据分析师求职面试指南》
● 你相信逛B站也能学编程吗
点击阅读原文,即可参与京东100-50购书活动