数据科学和商业的完美结合(1),A/B测试到底测什么?

本文探讨了在产品销售网页中,关于"购买"按钮位置优化的A/B测试策略。通过假设检验,分析了两种设计方案——按钮在左下方和右下方——对转化率的影响。介绍了如何通过计算转化率、t统计指标和样本量来判断设计改变是否带来显著差异,并讨论了实验设计的关键因素,包括期望的转化率变化、样本数量的确定以及错误类型。同时,强调了在实验开始前明确商业目标和统计功效的重要性。
摘要由CSDN通过智能技术生成

试想一下,你的公司在网上有一款产品销售。进行了各种网页优化和促销以后,产品经理告诉你,就差最后一步的“点击购买”按钮不确定是不是放对了位置。

       网页上商品的“购买“按钮,一直放在商品左下方:

 

       但是产品经理了解到,一般用户的心理行为是倾向于把要执行的动作放在右边。因此,一种新的设计是这样的:

 

 

两种方案哪个好?作为数据科学工程师的你,毫不犹豫:“做个A/B测试吧“。

       A/B测试,从统计上来说是一种假设检验(Hypothesis Test)。上面的例子中,首先,我们优化的目标是用户的点击概率p,或者说用户的转化率,范围在0和1之间。其次,我们要设计两种不同的网页,对于不同的新来用户进行随机展示。一段时间后,我们收集到了两组不同的结果。比如,“购买“按钮放在左边的网页,用户总的访问量为n1,其中x1个用户点击购买产品。而”购买“按钮放在右边的网页,用户访问量为n2,其中x2个用户点击购买了产品。

       因此,我们可以计算两种不同网页设计分别对应的转化率(conversion rate):

 

 

       两个转化率数值,一定会不一样。但问题是,这是因为新设计的确带来了更好的转换率,或是我们看到的不同数值只是偶然现象?这就是假设检验要解决的问题,根据假设检验,我们其实是在比较两种不同的假设:

       (1)H0假设:两种设计方案其实给出同样的转化率,即p1=p2

        (2)Ha假设:两种设计方案其实给出不同的转化率,即p1!=p2

 

假设检验中,我们首先设立一个标杆,在没有证据的情况下,我们总是先假设转换化率是一致的,实际观察到的数值不同只是随机现象。Ha假设则努力工作,去通过数据和统计来证明,这个标杆是错的,我们观察的不同数值,大概率已经超过了随机现象的可能。

因此,假设检验需要计算两个转化率之间的差别,查看导致这种差别的具体概率是多少。如果概率小于我们能够承受的范围,比如说5%,那么可以比较放心的宣布,Ha假设获胜,我们95%的可以肯定,两个转化率的确不同。而具体用来计算的指标,是这样的:

 

 

上式的指标一般被称作t统计指标,p1和p2分别为实际观察到的转化率,分母中的方差值可以从数据中估计。对于每个具体客户而言,转化率的分布(是否点击购买)实际上是伯努利(Bernoulli )分布。因此方差很好计算,上式的指标可以直接写为:

 

对于方差的计算还有另一种方法,就是假设两种转化率的分布具有相同的方差值。此时的方差值可以合并(pooled variance),因此上式的指标又可以这样计算:

 

上式的指标符合t统计指标的分布形式,在数据量较大时候(大于30),其分布已经可以近似于Z统计指标,或者说一个均值为0,方差为1的标准正太分布函数。这就意味着,我们把观察到的转化率和数据量带入公式,得到指标值。拿到指标值后,根据标准正太分布函数,我们计算得到这样数值或者更大数值的概率是多少。如果概率小于5%,那么我们可以在95%的可能性情况下(或者说5%显著性)拒绝H0假设,可以认为两种网页设计的确导致了不同的转化率。反之,我们则不能拒绝H0假设。

       根据标准正太分布函数,我们知道:

 

       因此,我们观察得到的计算指标,其绝对值如果大等于1.96,则意味着可以在5%的显著性下,拒绝H0假设,可以认为两个转化率的确不同。

 

      

读到这里,似乎一切都非常明了,但其实这只是故事的下半部。A/B测试更重要的是从一开始设计实验,即必须在实验开始时候明确下面两点:

(1)期望看到转化率有多大的变化?如果当前网页设计的转化率是p1,那么从商业角度上来说,我们是不是需要看到至少10%的提高,即新的转化率p2>=1.1p1,才值得去兴师动众的做实验检验。

(2)如果转化率的确有10%以上的提高(或者任何我们希望达到的差异),从统计上来说,我们需要多少样本就可以做出正确的结论。毕竟实验一旦开始,我们希望在保证没有偏差的情况下,尽快结束实验,减小机会成本。直觉告诉我们,如果两个网页真实的转化差异比较大,只需要较少的样本数量就能检验出差距;但是网页本身的转化率差异较小,则需要更多的样本数据才能检验出差距。

提前计算需要的样本数量,能够让我们从商业的角度上判断,这个A/B实验是否是网站能够负担的成本。比如,网站流量比较小,每天只有100人的访问量,而实验需要1万人的访问量才能看出统计显著的差距,那么这实验需要几个月的时间才能完成。这样的成本,就可能不大合适。

如果H0假设成立,即两个网页的转化率一致,T指标服从的是均值为0的标准正太分布。但如果Ha假设成立,即新网页的转化率比旧网页的转化率大,假设真实的转换率差别的绝对值为Δ=|p2-p1|,那么T指标是方差为1的正太分布,但是均值变为:

 

两种不同情况下的T指标分布,如下图所示:

 

 

上图中,无论我们决定采用什么置信标准,都可能存在两种不同的误差:

(1)Type I错误:如果H0成立,但是T指标大于临界值,我们则错误的拒绝了H0假设。这种错误概率是图中红色的面积。

(2)Type II错误:如果Ha成立,但是T指标小于临界值,我们会接受H0假设,但错误的拒绝了Ha假设。这种错误概率是图中的蓝色面积。

如果样本量越高,则两种错误概率都会越来愈小,图中的两个正态分布会相距越来越远。因此,设计实验的关键在于,确定两种错概率的边界线,即Type1错误概率不大于α, Type II概率不大于β,或者说统计的功效(power)大于1-β。

通常我们规定α=0,05, β=0.2或者power=0.8的情况都是可以接受的。只要样本量能够满足这两个统计指标,就够用了。当然越多越显著,只是从商业目的上来说,成本就会上升。

最后一步就是确认需要的样本数量。从图中可以看出,要达到目的,只要保证Ha假设下的正太分布中心值和我们选定的临界值相距足够远,满足下面的公式:

 

 

通常实验中,我们让两种不同的网页设计达到同样的用户访问量,即n1=n2=n,这种情况下,我们可以得到对样本n的要求计算如下:

 

上式中的方差为合并方差(pooled variance)

考虑通常的要求,α=0,05, β=0.2,我们有下面的简单结果:

 

 上式告诉我们,如果转化率分布的方差越小,或者我们期望得到的转化率的绝对提升值越大,需要的样本数量就越少,反之亦然。

更多精彩,欢迎和大家一起关注:

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值