背景
AB Test 是为同一目标制定两个方案,在同一时间维度,保证其他条件一致的情况下,分析实验组跟对照组的区别,根据不同的实验类型以及应用场景,产生了不同分桶逻辑的AB Test,包括在线分流及离线抽样。在流量侧进行的实验,常采用在线分流的方式,例如算法实验,比较算法A和算法B的收益;在用户侧进行的实验,常采用离线抽样的方式,例如客户实验,比较一个产品功能在客户侧的收益。本文主要介绍在线分流框架下的 AB Test 。
一般来说,实验流程路径可以归纳为四个步骤:实验设计-->实验实施-->实验效果-->实验决策,在每个步骤内,都需要根据实验的需求明确实验细节,具体如下图:
▐ 1. 实验设计
1.1 实验目的
对于在线分流框架下的 AB Test,首先需要明确实验目的,通过数据决策回答需要解决的问题,常见问题包括:流量1策略和流量2策略,哪一个效果更好?哪个ROI更高?长期来看哪个更好?在哪个层级的流量能达到最好的效果?
1.2 实验方案
设计实验方案时需要从两个角度考虑:1)如何设计该实验需要评估的指标,2)如何获取与分配实验流量。解决了这两个问题,那么实验方案便完成了一大半。
1.2.1 指标设计
定义指标时可分为两类:一是不变量,即变量组和对照组的都应该相同;二是变量,即需要观察改变的量。对于不变量,需要注意两者的总量及数据分布是否相同,以保证实验的正常进行。
指标评估时可选择一个指标或一套指标。如果使用一套指标,可以聚合成一个指标,比如构造一个目标函数,或是简单的加权指标。
此外,还需要考虑指标的普适性,最好能够设定一个贯穿整个体系的指标。
常见的指标可分为四类:
1)转化率指标:以01分布为基础计算的转化率指标,例如:点击率、购买转化率等;
2)人均指标:指单个独立访问用户指标的平均值,例如:人均购买金额、人均点击数等;
3)聚合类指标:指独立访问用户指标的聚合,例如:曝光数、点击数等;
4)比率指标:指两个连续型定量指标的比率,例如点击成本、转化成本等。
1.2.1 流量获取与分配
流量获取: 在线分流的 AB Test 通常采用随机分割全局流量,让所有流量随机进入实验组和对照组。这样,实验策略对全局所有流量都能够起到作用,我们可以通过后验的方式对不同的层级或人群进行实验效果验证,帮助进一步精准定位到策略效果最好的层级。
样本量预估: 当我们需要对特定层级或人群进行后验时,由于这部分特定层级必须满足最小样本量这个前提条件,这时则需要样本量预估。A/B 实验的效果评估是以样本的参数估计来代替总体水平,进而观测出实验效果,观测实验效果=实验因素造成的效果+抽样误差+随机扰动。

在经典统计学派中,显著性检验是以统计频率的为基础的,因此对于频率的稳定性有一定的要求。其中,不稳定因素来自假设检验过程中的犯错概率,这个犯错概率通常是经验值。这两类错误与样本量本身存在一定的函数关系,只要找到这两者的函数关系,就有不同犯错概率下的最小样本量。最小样本量的计算公式为:
其中, , 为总体标准差, 为总体均值,