ABTess之AA 测试

一、什么是A/A测试

A/A测试是用A/B测试的方法和工具来检验两个完全一样的版本。一般来说,它被用来检测试验平台或工具的结果是否是统计上的无差异。也被用来为A/B测试的变化做基线参考

二、为什么A/A测试是重要的

  • 有时在进行A/B测试之前,我们可能会进行一段时间的A/A测试,来观察两个一样的实验组对应指标的变化,把这个变化作为A/B测试的基线(或者理解为AB平台或工具的精确度)。如果A/B测试产生的变化和A/A测试产生的变化相比,结果非常接近,那么这个变化很可能是随机误差。
  • 我们也会用A/A测试来确保A/B实验平台的有效性和准确性。比如在当前的样本量下,看分组是否均匀;实验平台或工具是否能认为两个分组在统计上无差异。

三、A/A测试的种类

  • A/A – 50/50划分
    最典型的A/A实验划分,优点是简单直接,缺点是会使实验时间延长,适合样本量不是非常大,但是时间相对充裕的情况。

  • A/B/A - 1/3划分
    融合A/B和A/A的实验划分,优点是充分利用实验时间,实验时间足够长往往能得到更准确的实验结论。缺点是把实验流量划分为了3个部分,如果样本量不够大,会是实验的功效降低。适合样本量足够大,但是时间相对较紧的情况。

  • A/A/B/B – 25%划分
    这种划分是在A/B/A的基础上又进行了一次划分,可以观测B组的变化差异。实际使用较少,虽然B组也有了B/B实验,但是实际上会使实验组划分过细,导致每个组的样本量都不够大。

四、A/A测试的问题

在实验时间紧张的情况下,A/A测试存在的问题就是会占用一定的实验时间。A/B实验常见的一个问题就是结束的太早,有的指标会在一开始上线时有较好的反应,但是在一定的时间后又会渐渐降低(新奇效应),甚至不如原始版本。所以A/A所占用的实验时间产生的收益,和用足够时间进行A/B测试产生的收益是实验设计需要权衡的地方。

五、Q&A

Q1:既然AA测试两个实验组是完全一样的,为什么实验得到的结果不是完全一致的?
A1: 即使是完全相同的两个版本,也有可能因为分组中不同的用户产生不同的行为,或者其他一些随机因素,产生不一样的指标结果,这个结果只有在很大的样本量时,才会趋近于一致。可以类比为即使是一个均匀的硬币,在一定次数的抛硬币重复实验中,硬币的正反次数也不是绝对一样,只在实验次数到达一定数量时趋近于一致。


Q2:什么是统计上无差异?
A2:通俗的讲,统计上无差异是指,两个实验组的结果可能有一定的差别,但是这种差别程度,不足以认定两个实验组一定有差异。


Q3:根据P-value可以判断这是一个成功的AA测试吗?
A3:不一定. 如果P-value > 0.05, 可能有两种原因: AA组之间差异不显著; 样本量不够不足以显示差异. 前者是我们期望的, 但后者则不是. 所以, 不能仅根据P-value来判定AA两组是否均衡


Q4:一定要AA两组指标均衡, 才能开始做AB实验吗?
A4:不是. 由于随机性的问题, AA两组之间不可能绝对均衡, 而绝对差异随场景不同而不同. 即使AA实验中指标不均衡, 也可以开始AB, 通过比较AA之间的差异与AB之间的差异, 来判断AB之间是否有明显的差别. 特别地, 当你过分追求AA之间无差异时, 也会导致AB之间的差异变得更小


Q5:AA实验一般要做多久?
A5:最好与AB实验的周期相同, 比如说两周. 如果时间不够, 一般是通过回溯历史数据的方式来做AA实验.

  • 6
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值