ABTest之简介

米法·

已于 2022-03-29 17:54:27 修改

阅读量1.5k

点赞数 3

分类专栏：数据分析文章标签：数据分析

于 2021-02-17 00:52:20 首次发布

本文链接：https://blog.csdn.net/TSzero/article/details/113829989

版权

数据分析专栏收录该内容

14 篇文章 0 订阅

订阅专栏

文章目录

前言

A/B Test是互联网数据分析必备的知识点，本文主要整理网上的一些资料，简述A/B Test的主要流程和一些需要注意的地方。

详见：什么是A/B Test

一、收集指标，建立指标体系

一般A/B实验指标体系需要三类实验指标：
1、核心指标：这种指标是决定实验成败的关键指标
2、辅助指标：用于辅助判断实验对其他因素的影响
3、反向指标：实验可能产生负面影响的指标
反向指标的作用是提示实验可能的负面影响,如果负面影响太高，即使其他指标通过，也可以否决实验结果

二、分配流量，AA实验

实际A/B实验中可能出现抽样不均的情况，结果可能会产生偏差，为了保证实验数据的变化仅仅是实验本身引起的，可以一次性抽取4,5组流量，选择任意两组不加策略空跑，监控核心指标数据，选取两组数据最接近的进行实验（控制变量）

对于不同的情况，有不同的分配流量的策略：

不影响用户体验：如UI 实验、文案类实验等，一般可以均匀分配流量实验，可以快速得到实验结论
不确定性较强的实验：如产品新功能上线，一般需小流量实验，尽量减小用户体验影响，在允许的时间内得到结论
希望收益最大化的实验：如运营活动等，尽可能将效果最大化，一般需要大流量实验，留出小部分对照组用于评估 ROI

三、假设检验

（1）通过确定实验周期（一般为7天），可以通过用户使用频率来判断产品周期
（2）确定实验所需样本量：可以利用功效分析，详见深入学习AB测试
（3）配对样本t检验：原假设是没有差异，因此计算出的 $p$ 值小于给定的阈值 $\alpha$ 时，拒绝原假设，即认为是有差异的（用python实现t检验）

四、决策方案

先给出是正收益、负收益还是持平的结论。

如果是正收益，需要进行实验反转——进一步验证实验是否正确。举个例子，实验目的为“按钮大小对该按钮点击率的影响”。A组流量按钮变大，B组为对照组，按钮大小正常，数据显示A组的按钮点击率升高，效果更好。在反转试验中，A组流量按钮恢复正常，B组变为实验组，按钮变大。如果此时数据显示B组按钮点击率升高，说明按钮大小对点击率有影响。

如果是负收益，优化迭代方案重新开发

如果持平，调整分流比例继续测试，也可能是没有改善

常见问题

一、辛普森悖论

辛普森悖论是指在某个条件下的两组数据，分别讨论时都会满足某种性质，可是一旦合并考虑，却可能导致相反的结论。

举个小例子，男生点击率增加，女生点击率增加，总体为何减少? 因为男女的点击率可能有较大差异，同时低点击率群体的占比增大。如原来男性20人，点击1人；女性100人，点击99人，总点击率100/120。现在男性100人，点击6人；女性20人，点击20人，总点击率26/120。

要想避免辛普森悖论，必须合理的进行正确的流量分割，保证试验组和对照组里的用户特征是一致的，并且都具有代表性，可以代表总体用户特征。分层试验，交叉试验，定向试验是我们规避辛普森悖论的有力工具。

二、以偏概全

如果实验时间跑的太短，没有让高频用户和低频用户都包含在实验里，那么实验结果就只考虑了高频用户的行为，就会得到以偏概全的错误结论。

三、新奇效应

新奇效应，也是均值回归，在统计学上指的是对于概率事件的结果，随着试验次数的增加，结果往往趋近于均值。举个例子，假设让一个人回答若干个历史问题，这些问题是从庞大的题目数据库里随机抽取的，那么这个人一次测试的分数很有可能高于他自身能力获得的分数(超常发挥),也可能低于，但是测试若干次，分数会接近他的真实平均水平。

在A/B测试中，试验早期用户因为新奇会关注新改动，但是往往前期显著的提升在之后几天或者几周的测试中会逐渐消失。因此在做评估的时候，需要观测指标到稳定态后，再做评估。