数据科学工程篇_AB实验原理与实践

最新推荐文章于 2023-12-31 01:39:10 发布

胸中有数-数分版

最新推荐文章于 2023-12-31 01:39:10 发布

阅读量2.3k

点赞数 2

文章标签： ab测试数据分析数据科学火山引擎

本文链接：https://blog.csdn.net/Zengmeng1998/article/details/120300433

版权

关于数据科学工程实践一书的学习笔记与实践拓展，不足之处，望笔者多多指正。

1、AB实验介绍

1.1、什么是AB？

A/B 实验也被称为分离式组间实验或对照实验，是一种科学的因果推断统计方法，被广泛应用于科研领域（药物测试）。随着商业领域产品和活动的精细化运营，尤其是互联网行业中，A/B 实验也受到了越来越多的关注。简单描述 A/B 实验在产品优化中的应用方法：在产品正式迭代发布之前，为同一个目标制定方案，将用户流量对应分成几组，在保证每组用户特征相同的前提下，让用户分别看到不同的产品或者活动策略（可以是策略 1 与策略 2，也可以是实验组或对照组），根据几组用户的真实数据反馈，科学地帮助产品经理进行决策。

1.2、AB实验有什么用？

因果关系是很多互联网、生物等领域的核心关注点，如：今天用户为什么涨？怎样可以让用户多购买、活跃性更高？而探究事物的因果关系是该试验的根本目的。通过科学的AB试验可以解决如下两个统计学问题：

相关性缪误：比如国家的综合实力与国民博士数量成正比，所以国家的综合实力高可以导致国民博士数量增加；显然无法通过相关推出因果【有因果一定相关，有相关不一定有因果】，而通过AB控制单因素的差异进行试验，可以科学地推断事物间的因果关系。
潜在结果与因果效果：潜在结果即未加入影响因子前的结果，因果结果未加入影响因子后的结果，即分别为AB实验各自的结果。举个例子：如果去超市搞打折营销，某用户购买了4个苹果，如果做不做AB的实验的因果探究得到的结果可能恰恰相反。

在这里插入图片描述

2、AB实验过程与原理

2.1、AB实验前需要明确的几点

（1）明确实验要素与目标；

开始实验前，分析师与业务方应该明确以下的几类要素：

实验目的：是想通过改变哪几类影响因子改变哪几类指标，即探究哪几类事物间的因果关系；
实验单元：可以说是实验对象，如某APP双11打折促销，实验对象是打开APP的这类用户；
操作因子：即实验中的自变量，如上述例子的操作因子是折扣券；
操作因子水平：操纵因子在实验中设置的水平，即操纵因子可能的取值。因此，操纵因子水平决定了实验组的数量，例如在上述实验中，操纵因子水平为是否有折扣券，所以只有一个实验组，即发放折扣券的用户，而对照组则是空白对照，即无折扣券的用户。实际上，操纵因子水平可以有多个，当实验目标为折扣大小对于App浏览– 下单率的影响时，操纵因子水平可以是不同折扣，这样就有了多个实验组。
因变量：随着操作因子变动的变量，以上述案例为例：因变量为下单率；
效能：操作因子导致因变量变化的量，如上述例子有促销后下单率上升了3%，那么3%就是实验效能；
注意的是可以影响实验效能的除了操作因子，也会受到如：背景因子、偏执因子以及混淆因子等要素的影响。

（2）明确核心指标

核心指标是衡量实验组是否优于对照组的重要指标，明确核心指标有助于我们在复杂的指标大盘结果中找到重点，快速做出决策。特别是在同时订阅多个指标时，一般将一些指标作为关注指标，将一个指标作为核心指标。

（3）提出假设

A/B 实验的本质是假设检验，它首先对实验组和对照组的关系提出了某种假设，然后计算这两组数据的差异并确定该差异是否存在统计上的显著性，最后根据上述结果对假设做出判断。A/B 实验的原假设是两组没有差异，备择假设是两组有差异，所谓有无差异是对于这个实验的指标而言的，有一点反证法的意思。因此整个实验过程的核心目标为拒绝原假设，证伪后说明原假设不成立。一般情况下提出的原假设内容为： $p_1=p_2=0,p_1、p_2为AB两组试验的指标值$

2.2、AB实验流程

（1）明确目标（最小预计提升MDE）

简言之，在进行AB实验前，业务和分析同学需要建立一个心理预期，比如实验中用户的点击率至少提升2%的效果时，才算达到预期的目标，那此时的MDE也就是下文中的 $\Delta$ ；

（2）基于MDE预估样本量

预估样本量的目的是为了保证实验过程中保证测试的相对准确（第一类错误 $\alpha$ ）与足够好的统计功效（第二类错误 $\beta$ ）的,关于两类错误含义的简单介绍可见下表：
假设检验的几类情况

决策	接受 $H_0$	拒绝 $H_1$
$H_0为真，AB无用p_1$	正确决策，TN（1- $\alpha$ ）	第一类错误（拒真）， $\alpha$
$H_0为假，AB有用p_2,$	第二类错误（取伪）, $\beta$	正确决策（1- $\beta$ ）

两类错误的关系可见下图便于理解；
在这里插入图片描述

在统计学知识体系中，考虑不同的因素，得到的对应的样本量计算公式也有所不同，这里，主要据笔者了解主要使用的样本量计算公式如下：

只考虑第一类错误 $\alpha$ 的样本量预估
$n=\frac{2 \sigma^{2}*z_{1-\alpha / 2}^{2}}{\Delta^{2}}$
同时考虑第一类 $\alpha$ 与第二类的错误 $\beta$ 额样本量预估
$n=\frac{2 \sigma^{2}\left(z_{1-\alpha / 2}+z_{1-\beta}\right)^{2}}{\Delta^{2}}$

其中：
$\Delta$ ：样本均值预期最小提升；
$\sigma^{2}$ :样本方差，一般情况下取 $\sigma^{2}=p(1-p)$ ,p为关键比率（指标）
Z：正态分布累计概率为 x 时对应的分位数，（一般 $\alpha=0.05时，z_{1-\alpha / 2}=1.96$ ， $\beta=0.1时z_{1-\beta}=1.28$ ）
$\alpha$ ：第一类错误（拒真）
$\beta$ ：第二类错误（取伪）

（3）基于预估样本量预估实验时长

一般来说，如果业务同学与分析同学将放量限死（考虑影响用户数量尽可能的小），比如限制在10%的用户流量是1000，但是实验预估样本量是5000，那么预估的实验时长就是5天（对于比较看重交易日的互金领域就是一周），一般在实际的业务中取一周的比较多。

（4）AA实验对比

在开始AB实验，需要先进行或同步进行一组等量等时长的AA实验，主要目的为：

检查分组流量的分组是否均匀，消除组内差异对实验的影响；
根据AA的实验结果参考，可以判定AB实验结果是否需要矫正（其实可上面的点差不多）；

2.3、根据实验结果进行决策

在统计学中，根据样本量的大小的不同（一般以30为界），大样本量使用Z检验，小样本量使用t检验；这里按照比例进行Z检验计算。

（1）AA&AB实验结果计算方法

A/B 实验结束后，样本量达到实验预期提升所需数量，对关键指标（购买、点击率、转化率、留存率等）进行显著性检验，计算公式为：
$z=\frac{\bar{x}_{B}-\bar{x}_{A}}{\sqrt{\frac{S_{A}^{2}}{n_{A}}+\frac{S_{B}^{2}}{n_{B}}}}$
其中：
A：对照组
B：实验组
$\bar{x}_{A}$ ::对照组样本均值；
$\bar{x}_{B}$ :实验组样本均值；
$S_{A}^{2}$ :对照组样本方差；
$S_{B}^{2}$ ::实验组样本方差；
$n_{A}$ :对照组样本量;
$n_{B}$ :实验组样本量