ABTess之AA 测试

米法·

已于 2022-03-29 17:55:10 修改

阅读量3.3k

点赞数 6

分类专栏：数据分析文章标签：机器学习支持向量机算法

于 2021-07-08 16:49:11 首次发布

本文链接：https://blog.csdn.net/TSzero/article/details/118577020

版权

数据分析专栏收录该内容

14 篇文章 0 订阅

订阅专栏

文章目录

一、什么是A/A测试

A/A测试是用A/B测试的方法和工具来检验两个完全一样的版本。一般来说，它被用来检测试验平台或工具的结果是否是统计上的无差异。也被用来为A/B测试的变化做基线参考。

二、为什么A/A测试是重要的

有时在进行A/B测试之前，我们可能会进行一段时间的A/A测试，来观察两个一样的实验组对应指标的变化，把这个变化作为A/B测试的基线（或者理解为AB平台或工具的精确度）。如果A/B测试产生的变化和A/A测试产生的变化相比，结果非常接近，那么这个变化很可能是随机误差。
我们也会用A/A测试来确保A/B实验平台的有效性和准确性。比如在当前的样本量下，看分组是否均匀；实验平台或工具是否能认为两个分组在统计上无差异。

三、A/A测试的种类

A/A – 50/50划分：
最典型的A/A实验划分，优点是简单直接，缺点是会使实验时间延长，适合样本量不是非常大，但是时间相对充裕的情况。
A/B/A - 1/3划分：
融合A/B和A/A的实验划分，优点是充分利用实验时间，实验时间足够长往往能得到更准确的实验结论。缺点是把实验流量划分为了3个部分，如果样本量不够大，会是实验的功效降低。适合样本量足够大，但是时间相对较紧的情况。
A/A/B/B – 25%划分：
这种划分是在A/B/A的基础上又进行了一次划分，可以观测B组的变化差异。实际使用较少，虽然B组也有了B/B实验，但是实际上会使实验组划分过细，导致每个组的样本量都不够大。

四、A/A测试的问题

在实验时间紧张的情况下，A/A测试存在的问题就是会占用一定的实验时间。A/B实验常见的一个问题就是结束的太早，有的指标会在一开始上线时有较好的反应，但是在一定的时间后又会渐渐降低（新奇效应），甚至不如原始版本。所以A/A所占用的实验时间产生的收益，和用足够时间进行A/B测试产生的收益是实验设计需要权衡的地方。

五、Q&A

Q1:既然AA测试两个实验组是完全一样的，为什么实验得到的结果不是完全一致的？
A1: 即使是完全相同的两个版本，也有可能因为分组中不同的用户产生不同的行为，或者其他一些随机因素，产生不一样的指标结果，这个结果只有在很大的样本量时，才会趋近于一致。可以类比为即使是一个均匀的硬币，在一定次数的抛硬币重复实验中，硬币的正反次数也不是绝对一样，只在实验次数到达一定数量时趋近于一致。

Q2:什么是统计上无差异？
A2:通俗的讲，统计上无差异是指，两个实验组的结果可能有一定的差别，但是这种差别程度，不足以认定两个实验组一定有差异。

Q3:根据P-value可以判断这是一个成功的AA测试吗?
A3:不一定. 如果P-value > 0.05, 可能有两种原因: AA组之间差异不显著; 样本量不够不足以显示差异. 前者是我们期望的, 但后者则不是. 所以, 不能仅根据P-value来判定AA两组是否均衡

Q4:一定要AA两组指标均衡, 才能开始做AB实验吗?
A4:不是. 由于随机性的问题, AA两组之间不可能绝对均衡, 而绝对差异随场景不同而不同. 即使AA实验中指标不均衡, 也可以开始AB, 通过比较AA之间的差异与AB之间的差异, 来判断AB之间是否有明显的差别. 特别地, 当你过分追求AA之间无差异时, 也会导致AB之间的差异变得更小

Q5:AA实验一般要做多久?
A5:最好与AB实验的周期相同, 比如说两周. 如果时间不够, 一般是通过回溯历史数据的方式来做AA实验.