AB test

AB test 的介绍:AB test又称为分组隔离实验,是可以对产品页面的不同设计进行科学实验的方法。例如一个产品页面,有两个不同颜色的按钮,可以通过AB测试两个不同颜色的按钮的点击次数是否存在显著的差异。

AB test 的原理:假设检验。
检验我们提出的假设是否正确,分为实验组和对照组。
原假设:实验组和对照组没有显著差异
备择假设:实验组和对照组存在显著差异

AB test 的流程:
选取指标——建立假设——选取实验单位——计算样本量——流量分割——实验周期计算——线上验证——数据验证

1、选取指标:指标一般分为绝对值类指标和相对值类指标
绝对值类指标就是平常直接计算就能得到的,比如DAU,点击次数等。一般都是统计该指标在一段时间内的均值或者汇总值,不存在两个值之间还要相互计算。
相对值类指标与绝对值类指标相反,不能直接计算得到。比如某页面的CTR,是用 页面点击数 / 页面展现数,要计算点击数和展现数,两者相除才能得到该指标。类似的,还有XX转化率,XX点击率,XX购买率一类的。做的AB实验,大部分情况下都想提高这类指标。
2、建立假设,上文有提到,原假设和备择假设
3、选取实验单位:一般使用用户粒度来作为实验单位,但是总体说来,实验单位一般有3种
1)用户粒度:这个是最推荐的,即以一个用户的唯一标识来作为实验样本。好处是符合AB测试的分桶单位唯一性,不会造成一个实验单位处于两个分桶,造成的数据不置信。
2)设备粒度:以一个设备标识为实验单位。相比用户粒度,如果一个用户有两个手机,那么也可能出现一个用户在两个分桶中的情况,所以也会造成数据不置信的情况。
3)行为粒度:以一次行为为实验单位,也就是用户某一次使用该功能,是实验桶,下一次使用可能就被切换为基线桶。会造成大量的用户处于不同的分桶。
4、计算样本量,依据是中心极限定理,中心极限定理的内容以前文中有详细介绍,这里就不做赘述了,通俗来说中心极限定理就是只要样本量足够大,无论是什么指标,无论对应的指标分布是怎样的,样本的均值分布都会趋于正态分布。
在这里插入图片描述
5、流量分割:有三个概念,分别是域、层、桶
域是指整体流量的分区,域之间是互斥的;层是指某个域内全部流量的一个观测角度,不同的细分方法,对应的也就是不同的层。不难理解,层与层之间的关系是正交的,即彼此互不影响,相互独立。可以同时进行实验而不互相干扰;在每个层中,我们使用独立的Hash函数对用户进行取模,将用户均匀的分配至N个实验桶中。桶与桶之间是互斥的。在A层中有A1/A2/A3/A4这4个桶,他们彼此互斥,互不重叠,彼此加和后等于层内的全部流量。我们可以用A1/A2进行X实验,同时用A3/A4进行Y实验
6、实验周期计算
通过流量切分,知道实验桶一天大概能有多少样本量(也可以算小时,如果产品的流量足够大),可以直接用 最小样本量 / 实验桶天均流量 即可以得到相应的实验周期。
7、线上验证
可以增加关于数据有效性考量的AA测试,在试验过程中通过考察分配给老版本C和D的两股流量是否存在显著性差异,从而认定试验分流是否有效。
在这里插入图片描述

实验设计:

1)单因素实验设计
所谓单因素实验设计,是指实验中只有一个影响因素变量,其他的内容都保持不变的实验方法。举个例子,两个实验组,一组用广告图A,一组用广告图B,这两个组进行实验对比,最后发现A组比B组效果好,那么我们就可以认为这是A广告图的作用。

2)多因素实验设计
多因素实验设计,是指实验中有多个影响因素变量。比如你想同时测试广告图(AB)和广告弹出方式(AB)对转化率的影响,这里面有两个变量,对应的有4种组合条件:

广告A,弹出方式A
广告A,弹出方式B
广告B,弹出方式A
广告B,弹出方式B

多因素实验设计的好处在于,除了可以检测同一个变量、不同实验条件之间的差异之外,还能对变量之间的交互效果进行检验。用上个例子做说明,如果在单因素AB实验里,我们发现广告A比广告B的效果好,弹出方式A比弹出方式B的效果好,但是广告A+弹出方式A的组合情况却不是最好的,因为他们之间的组合,产生了化学作用。这种情况下,就必须使用多因素实验设计来做。

8、数据验证
一般情况下,绝对值指标用T检验,相对值指标用Z检验。因为绝对指标的的总体方差,需要知道每一个用户的值,这个在AB测试中肯定不可能,而相对值指标是二项分布,可以通过样本量的值计算出总体的值,就如同10W人的某页面点击率是10%,随机从这10W人中抽样1W人,这个点击率也是10%一样。、

显著性检验:属于假设检验
a值:又称为“弃真概率”,指的是拒绝原假设犯错的概率,因为弃真的代价比较大,因此这个概率越小越好,经常使用的值有0.01,0.05,0.001等。
例如:a=0.05代表的就是拒绝原假设犯错的概率只有0.05,犯错的概率极其小,本着小概率事件不会发生的原则,可以放心的做出 拒绝原假设,接受备择假设的判断。
p值:称为显著性水平,p值指的是在原假设正确的条件下,得到样本观察值的概率。p值越小,说明观察值出现结果越小,也就是说原假设正确的概率越低。当p<a时,可以得出 拒绝原假设的判断
置信区间:假设检验当中,通过样本值对总体参数进行估计时会用到区间估计,表示的含义是总体参数会以一定的概率落入这个区间范围内。决定区间范围的概率为置信度,常用90%或95%。

再来说说具体的检验。一般情况下我们可以用两种常用方法:
1)算P值,也就是算当零假设成立时,观测到样本数据出现的概率。统计学上,将5%作为一个小概率事件,所以一般用5%来对比计算出来的P值。当P值小于5%时,拒绝零假设,即两组指标不同;反过来,当P值大于5%时,接受零假设,两组指标相同。
2)算置信区间。一般情况下,我们都会用95%来作为置信水平。也就是说,总体数据有95%的可能性在这个范围内。我们计算两组指标的差异值,如果我们算出的差异值置信区间不含0,我们就拒绝零假设,认为两组指标不同;但是如果包含0,我们则要接受零假设,认为两组指标相同。
当然,我们也可以直接算出Z值或者T值,查表对比。但是这种不是很常用,还是以P值及置信区间为主流。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值