A/B-test显著性检验

最新推荐文章于 2025-04-18 16:45:13 发布

sherri_du

最新推荐文章于 2025-04-18 16:45:13 发布

阅读量2.2k

点赞数 4

分类专栏：机器学习算法

机器学习算法专栏收录该内容

9 篇文章

订阅专栏

前言

#################################################################

## 本文是我在实习期间老大要求出的，故整理发布到博客上，欢迎大家拍砖！##
## 另外，注释内容及部分公式内容我是直接截图放上的，望见谅！ ##
## 最后，将我原稿转成图片附上，大家可以直接跳到文末 ##
#################################################################

A/B-test解读

A/B-test是为同一个目标制定两个方案，在同一时间维度，分别让组成成分相同（相似）的用户群组随机的使用一个方案，收集各群组的用户体验数据和业务数据，最后根据显著性检验分析评估出最好版本正式采用。

使用A/B-test首先需要建立一个待测试的版本服务，这个版本服务可能在标题、字体、排版、背景颜色、措辞等方面与原有版本服务有所不同，然后将这两个版本服务以随机的方式同时推送给测试用户。接下来分别统计两个版本的用户转化率指标，然后根据样本数据进行显著性检验。

测试目的

页面（版本）的某一特定更新对转化率指标（如UV-线索转化率、UV-上架转化率、UV-成交转化率或者线索-上架转化率等）的影响效果。

A/B-test显著性检验

随机将测试用户群分为2部分，用户群1使用A方案，用户群2使用B方案，经过一定测试时间后，根据收集到的两方案样本观测数据，根据显著性检验结果选取最好方案。

为了下文方便说明，我们不妨设A方案为参考方案（或旧方案），B方案为实验方案（或新方案）。以下我们以xx二手车的线索-车辆成交转化率为例（注：所有数据均属虚构，仅做示例说明之用），假设进行A/B-test的时间是一周。

选取观测指标

使用A方案的人数，使用B方案的人数，通常情况下；

由样本计算出A方案的线索-车辆成交转化率为，B方案的线索-车辆成交转化率为；

总体A的分布：，总体B的分布：；

根据中心极限定理[3]可知，和均可认为近似服从正态分布：

所以根据正态分布的性质[4]：

建立原假设和备择假设

由于我们的期望结果是B方案所带来的线索-车辆成交转化率高于A方案所带来的线索 -车辆成交转化率，所以原假设和备择假设如下：

构建检验统计量[5]

显著性检验结论

给定显著性水平为。当时，拒绝原假设，认为B方案所带来的线索-车辆成交转化率高于A方案所带来的线索-车辆成交转化率，建议可以进行推广；当时，不能拒绝原假设，即认为B方案所带来的线索-车辆成交转化率不高于A方案所带来的线索-车辆成交转化率，建议暂不建议进行推广。

A/B-test示例

假设我们进行A/B-test一周，参考版本（通常默认是原始版本，简记为A）和实验版本（添加了特定改进的版本,简记为B），分别得到了1000个线索，A的线索-车辆成交转化率为7%，B的线索-车辆成交转化率为8%。如表1所示：

在这儿，我们是肯定B比A版本所带来的转化率高呢，还是说这仅仅是由于一些随机的因素导致的这样的区别呢？我们严格按照A/B-test显著性检验过程进行如下计算。

1).选取测量指标：

2).构建原假设和备择假设：

3).构建检验统计量：

我们可以计算得到Z=0.849105726，

4).显著性检验结论：

如果取显著性水平=0.5，则=1.644854，所以不能拒绝原假设，即认为B版本不一定比A版本所带来的线索-车辆成交转化率高。

如果我们将A/B-test的时间拉长，如两周时长的A/B-test分别得到5000条线索量；或者说同样做一周时间的A/B-test，但是测试的比例更大，分别得到5000条线索量。即 N=5000，且线索-车辆成交转化率保持不变。计算得出Z=1.89865812，在同样显著性水平下，可以拒绝原假设，得出B比A版本所带来的线索-车辆成交转化率高的结论。

上述结论是符合我们的主观感受的！在小样本量时，新版所带来的线索-车辆成交转化率高于旧版本所带来的线索-车辆成交转化率，其原因也有可能是受到随机波动等因素影响，故不能肯定地说明新版要比旧版所带来的线索-车辆成交转化率高；但在大样本量时，或者说长期来看，新版本所带来的线索-车辆成交转化率都稳定地高于旧版本所带来的线索-车辆成交转化率，我们有理由相信，确实新版本所带来的线索-车辆成交转化率高于旧版本所带来的线索-车辆成交转化率。