最详细的A/B test 原理

泰勒斯霁月

已于 2022-07-02 16:48:19 修改

阅读量6.6k

点赞数 8

文章标签：大数据数据库

于 2022-07-02 16:31:55 首次发布

本文链接：https://blog.csdn.net/weixin_43029292/article/details/125573860

版权

定义

为了验证一个新策略的效果，准备原策略A和新策略B两种方案。随后在总体用户中取出一小部分，将这部分用户完全随机地分在两个组中，使两组用户在统计角度无差别。将原策略A和新策略B分别展示给不同的用户组，一段时间后，结合统计方法分析数据，得到两种策略生效后指标的变化结果，并以此判断新策略B是否符合预期

AB Test 完整的实验流程

1. 流程

确定需要对比的两个方案及试验目标-确定目标以及创建辩题
生成假设
确定评估指标：确定衡量优化效果的指标（如：CTR，停留时长等）
确定实验用户群体和最小实验的样本数
分配流量：确定实验分层分流方案，以及实验需要切分多少流量,一般根据最小样本量确定
确定实验有效天数：实验的有效天数即为实验进行多少天能达到流量的最小样本量。
上线实验
收集数据
分析AB test 结果评估，采用t、z和f检验计算相关统计量和p值，p小于 $\alpha$ ，则拒绝原假设。

2. 注意事项

保证变量单一（实验组和对照组只有一个变量不同，控制变量）
保证样本量合适、实验时长合适
用户分流分层合适
指标确定合理（统计功效方面）

3. 假设检验

假设检验是用来判断样本与样本，样本与总体的差异是由抽样误差引起，还是有本质差别造成的统计推断方法。
假设检验是先对总体的参数提出某种假设，然后利用样本数据判断假设是否成立的过程。逻辑上运用反证法，统计上依据小概率思想。

小概率思想是指小概率事件（显著性水平 p < 0.05）在一次试验中基本上不会发生

具体到AB Testing，就是假设实验版本的总体参数（优化指标均值）等于对照版本的总体参数，然后利用这两个版本的样本数据来判断这个假设是否成立。

原假设H0：这项改动不会对核心指标有显著的影响

备选假设H1：这项改动会对核心指标有显著影响

假设检验工具：Evans awesome AB Tools

4. 实验

正交实验：如果实验之间共享同一份流量实验效果之间不干扰，这样的实验我们叫正交实验，这种情况下，流经两个实验的流量是可以共享的，流经实验一的流量也可以流经实验二
互斥实验：如果分层共享同一份流量就有可能出现实验效果之间相互干扰的问题，这样的实验叫互斥实验，也就是如果实验一和实验二是互斥关系，那么经过实验一的流量就不能进入到实验二

5. 分流

实验有了，怎么分流也很重要。分流指的是根据分流算法策略为每层的每个实验分配相应的流量，从请求角度来说，是让每个请求都能在各层能准确稳定的命中到相应实验。
每一层的每个实验的实验组和对照组就是一个分组，每层的流量一共是100，假设这一层有两个实验分别是实验一和实验二，流量配比各为50%，每个实验各有一实验组和对照组，实验组和对照组平分流量各得25%，那么这里每层实验就有4个分组。
整体流量按分组划分，从0开始编号的话，可以认为，实验一组一的分组装的是0~24的编号，实验一组二的分组装的是25~49编号，类推，实验二组二的分组装的是75~99的编号。一个流量请求在每一层中只能命中到一个实验组，也就是说只能被分到一个分组内。
一般我们会选择用用户id和实验层id哈希取模（mod=f(uid, layer)%100），得到的值在哪个分组内，该请求就命中哪个实验的那个组,这样保证了用户在每层命中的实验是随机且是稳定的

6. 确定最小样本量

每一个实验组所需的样本量计算公式如下：

$N=\frac{(Z_{1-\frac{\alpha}{2}}+Z_{1-\beta})^2* \sigma^2}{\delta^2}$

置信水平： $\alpha=0.05,Z_{1-\frac{\alpha}{2}}=1.96$

统计功效： $\beta=0.2,Z_{1-\beta}=0.84$ ， $\sigma$ 为样本标准差， $\delta$ 为组间预期差值

当观测指标为绝对值类指标时：

$\sigma^2=\frac{2*\sum_{1}^n(x_i-\overline{x})^2}{n-1}$

其中：n为样本数量， $\overline{x}$ 为样本均值

当观测指标为比率类指标时： $\sigma^2=P_A(1-P_A)+P_B(1-P_B)$

其中 $P_A,P_B$ 分别为对照组和实验组的观测数据