大厂AB实验理论知识与实践

最新推荐文章于 2025-05-04 14:45:47 发布

征途黯然.

最新推荐文章于 2025-05-04 14:45:47 发布

阅读量2.7k

点赞数 10

分类专栏： # 推荐系统 # 测试文章标签：概率论 AB测试显著性水平

原创博客归本人所有，禁止任何人、组织、公司转载或采集！

本文链接：https://blog.csdn.net/qq_43592352/article/details/143973891

版权

推荐系统同时被 2 个专栏收录

5 篇文章

订阅专栏

测试

3 篇文章

订阅专栏

在互联网公司实际生产中，对产品的任何微小改动都需要线上验证效果，然后才能把全量流量切入新版本。例如把一个按钮从绿色改为了红色，如果不在线上做实验，万一改动之后影响订单收益就是事故了。因此，AB实验是每个公司都必备的平台能力。

大厂的AB团队要针对本公司的行业特征与技术特点，设定合理的AB指标策略，开发各个语言（如Java、Python、Go等）的实验SDK，还要开发AB实验的管理平台、指标监控、实验结论生成等模块。

对于非AB团队的开发、测试、算法、前端等，因为会做产品开发升级工作，几乎都必不可少会接触到AB实验，以查看自己负责的模块在线上的表现。本篇文章将向大家介绍大厂AB实验理论知识与实践。

一、数学基础

中心极限定理

中心极限定理（Central Limit Theorem，简称CLT）是对一列独立同分布的随机变量的平均值的描述。简单而言，对于任意分布，只要随机变量之间相互独立且分布相同，从这些随机变量中随机抽n个值，然后求均值，并重复足够多的次数后，这些均值服从正态分布！

数学描述

设 $X_1, X_2, ..., X_n$ 是独立同分布的随机变量，每个随机变量都有期望值 $\mu$ 和方差 $\sigma^2$ 。定义样本平均值为 $\bar{X}_n = \frac{1}{n}(X_1 + X_2 + ... + X_n)$ 。当 $n$ 足够大时，样本平均值 $\bar{X}_n$ 的分布将接近于均值为( $\mu$ )、方差为( $\frac{\sigma^2}{n}$ )的正态分布。即： $\bar{X}_n \sim N(\mu, \frac{\sigma^2}{n})$ 。

关键点

独立同分布：中心极限定理成立的条件之一是随机变量必须是独立的并且具有相同的分布。
样本量的影响：样本量越大，样本平均值的分布就越接近正态分布。
原始分布的形状：原始随机变量的分布可以是任意的，但只要满足独立同分布的条件，其样本平均值的分布在大样本下都将接近正态分布。即使原始分布是非正态的，样本平均值的分布也会趋于正态。
方差的缩放：随着样本量的增加，样本平均值的方差会减小，这是因为分母( n )增大。

应用

中心极限定理在统计学中有着广泛的应用，尤其是在以下方面：

置信区间的构建：利用正态分布的性质来估计总体参数的置信区间。
假设检验：在假设检验中，中心极限定理允许我们使用正态分布来评估统计显著性。
样本量的确定：在进行实验设计时，可以帮助确定所需的样本量，以确保统计检验的效力。

中心极限定理是统计学理论中的一个基石，为许多统计推断方法提供了理论基础。

大数定理

大数定理描述了随机变量的样本平均在某些条件下收敛于其期望值（或真实均值）的性质。简单来说，大数定理说明了当独立重复试验的次数足够多时，试验结果的频率趋近于其概率。

数学描述

对于一系列独立的、同分布的随机变量 ( $X_1, X_2, X_3, ...$ )，如果它们具有有限的期望值 ( $E(X_1) = \mu$ )，那么它们的样本平均 ( $\bar{X}_n = \frac{1}{n}\sum_{i=1}^{n}X_i$ ) 将几乎肯定地收敛于 ( $\mu$ )，即：
$\lim_{n \to \infty} P\left(\left|\bar{X}_n - \mu\right| < \varepsilon\right) = 1$

中心极限定理是说无论原始数据分布如何，抽样的均值分布服从正态分布；而大数定律根本和正态分布无关，是说样本多了抽样分布近似于总体分布。

二、常见统计学术语

AB测试主要涉及以下概念：

原假设&备择假设
Z检验&p值
左侧检验
显著性水平(alpha值)&统计功效power(1-beta值)
置信区间

假设检验

在进行AB实验之前，要进行假设，也就是设立一个目标。假设检验是统计学里面用来判断样本数据是否足以拒绝某个统计假设的方法。它具有两个概念：

原假设（Null Hypothesis）：通常记作 ( $H_0$ )，它是一个默认的假设，通常表示没有效果、没有差异或没有关系。在AB实验中，原假设通常作为A版，也就是不作改动的参照组。
备择假设（Alternative Hypothesis）：通常记作 ( $H_1$ ) 或 ( $H_a$ )，它是与零假设相对立的假设，表示存在某种效果、差异或关系。在AB实验中，备择假设通常作为B版，也就是作出了变更的实验组。

因此，AB实验中假设检验的目的是拒绝原假设，也就是备择假设才是我们想要的结果。

比如，你在原有App上增加了AI对话功能，那么原假设就是原有App，备择假设就是增加了AI对话功能的App，我们自然希望备择假设的效果能够更好。

检验方法(Z检验)

在设置了原假设与备择假设之后，需要通过统计手段来裁定实验结果。理论上实验样本越多，最终的实验结果越可靠。但是在实际生产中，线上流量就是金钱，不应该花大量的时间在实验上，应该快速决策好的假设。因此需要科学理论来计算最少需要的实验样本量，以节约成本。不同的检验方法有不同的特点，主要有：

Z检验：适用于大样本情况
T检验：适用于小样本情况

实际生产中大多数使用的是Z检验。

数学描述

Z检验适用于大样本数据（通常n>30），并且假设数据服从正态分布，或者总体标准差已知。Z检验的统计量是Z值，计算公式为：
$\frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}}$

其中，( $\bar{X}$ )是样本均值，( $\mu_0$ )是总体均值，( $\sigma$ )是总体标准差，( $n$ )是样本大小。

双比率Z检验

在AB实验中，Z检验通常用于比较两个不同版本的实验结果，以确定它们之间是否存在统计上显著的差异。

例如，AB实验比较的主指标是转化率CTR，假设对照组和实验组样本数为 $n_1$ , $n_2$ ，平均 CTR 为 $\bar{p}_1$ , $\bar{p}_2$ ，这里平均 CR 是指我们基于实验观测到的结果，假设实际上两组的 CTR 为 ${p}_1$ , ${p}_2$ ，根据中心极限定理， ${p}_1$ 和 ${p}_2$ 均趋向正态分布，且由于独立正态分布变量之和依旧是正态分布， ${p}_1-{p}_2$ 也趋向正态分布。正因为其满足正态分布，因此我们可以计算实验版与对照版之间统计量Z来检验实验效果：
$Z=\frac{\bar{p}_1-\bar{p}_2}{\sqrt{\frac{\bar{p}_1(1-\bar{p}_1)}{n_1}+\frac{\bar{p}_2(1-\bar{p}_2)}{n_2}}}$
其中， $\bar{p}_1-\bar{p}_2$ 是实际观测到的差异， $\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}$ 是实际观测到的标准误差，直观来看的话，Z-score 表示的是实际差异有多少个标准误差。Z-score 与正态分布的关系如下图所示：

图1

得到统计量Z之后，使用标准正态分布表，或者使用统计软件可计算P值。

在上述的Z值计算公式中，使用的是对照组减去实验组，Z值具有正负性，参考图1，我们可以说Z越向两端靠近就越显著。而由于对照组代表原假设、实验组代表备择假设，当Z越小（负数）说明 ${p}_2$ 越大于 ${p}_1$ ，说明实验组效果越好，换句话说就是越接受备择假设。当Z越大（正数）的分析也同理。

左侧检验

上述计算Z值的公式实际上是一个单侧检验，我们还可以检验对照组与实验组是否有显著差别，即双侧检验，这里把各种情况下的假设和拒绝域都汇总帖出来。

	双侧检验	左侧检验	右侧检验
假设	$H_0:\ p_1-p_2= 0$ $H_1:\ p_1-p_2\not =0$	$H_0:\ p_1-p_2\ge 0$ $H_1:\ p_1-p_2<0$	$H_0:\ p_1-p_2\le 0$ $H_1:\ p_1-p_2>0$
拒绝域	$\mid Z\mid \ge Z_{1-\frac{\alpha}{2}}$	$Z\le Z_\alpha$	$Z\ge Z_{1-\alpha}$

两类错误定义

第Ⅰ类错误是在假设检验中拒绝了本来是正确的原假设。也就是说实验组实际上不比对照组好，但是却错误的认为实验组更好。

第Ⅱ类错误是在假设检验中没有拒绝本来是错误的原假设。也就是说实验组实际上比对照组好，但是却错误的认为对照组更好。

这两类错误有点像混淆矩阵中假阳、真阴的概念，表示是绝对错误。换个角度说，真阳、假阴是绝对正确，所以才会在召回率公式中计算。

这两类错误之间有什么关系？

在假设检验中两种错误一般是此消彼长的，即如果减小第Ⅰ类错误，就会增大犯第Ⅱ类错误的机会；若减小第Ⅱ类错误,就会增大犯第Ⅰ类错误的机会。而使两种错误同时变小的办法只有增大样本量。但样本量不可能无限增大。因此，在假设检验中通常遵循首先控制犯第Ⅰ类错误原则。

继续参考图1。当Z值越小，说明实验组越好，我们越有理由拒绝原假设。那小到什么程度可以拒绝呢？这就需要人工拍一个显著水平 $\alpha$ ，它表示假定原假设为真时，我们却拒绝原假设的概率，也就是发生第Ⅰ类错误的概率。

**显著性水平 $\alpha$ **取值通常为0.1或0.05，选择更小的 $\alpha$ 往往就意味着更高的成本。

其实P值才是实验过程中，真正计算而来的显著性水平， $\alpha$ 应该理解为对P值卡点的一个阈值。

我们把发生第Ⅱ类错误的概率定义为 $\beta$ ，定义功效power为 $1-\beta$ ，对于左侧检验，功效值的计算公式为：
$1-\beta=\Phi\Big(\frac{\bar{p}_2-\bar{p}_1-Z_\alpha\sqrt{\frac{2p_0(1-p_0)}{n}}}{\frac{\bar{p}_1(1-\bar{p}_1)}{n}+\frac{\bar{p}_2(1-\bar{p}_2)}{n}}\Big)$

检验的功效越大，当原假设为假时，我们拒绝原假设的概率越大。功效power一般取值为0.8。

为什么要有显著性水平 $\alpha$ 与功效power这两个概念？

从混淆矩阵的角度去理解，第Ⅰ类错误是假阳，第Ⅱ类错误真阴，假阳、真阴属于绝对的错误，我们要尽可能的去规避这两种错误。由于一般发生第一类错误的影响更大一些，所以我们一般控制第一类错误的概率不超过 $\alpha$ ，然后让功效越大越好。

置信区间

置信水平（例如95%）与显著性水平（例如0.05）的和通常等于1。置信水平高的区间对应于较低的显著性水平。置信水平与两种错误关系如下：

	接受 $H_0$	拒绝 $H_0$
$H_0$ 为真	置信度 $1−\alpha$	第Ⅰ类错误， $\le\alpha$
$H_0$ 为假	第Ⅱ类错误， $\le \beta$	功效 $1-\beta$

⭐最后，怎样在确定显著水平 $\alpha$ 的情况下，提高 Z 检验的功效值呢？增加样本量！我们可以根据功效的计算公式对所需的最小样本量n进行求解，得到预期功效为 $1-\beta$ 的样本量为：
$n=\frac{2(Z_\alpha+Z_\beta)^2}{(2\sin^{-1}\sqrt{\bar{p}_1}-2\sin^{-1}\sqrt{\bar{p}_2})^2}$
其中，显著水平 $\alpha$ 、预期功效为 $1-\beta$ 是预设的， $Z_{\alpha}$ 、 $Z_{\beta}$ 可以通过查表得到。 $\bar{p}_1$ 是你的指标的历史均值，比如CR近1个月的均值， $\bar{p}_2$ 等于 $\bar{p}_1 + lift$ ，lift是指标提升量。