前言
A/B Test是互联网数据分析必备的知识点,本文主要整理网上的一些资料,简述A/B Test的主要流程和一些需要注意的地方。
详见:什么是A/B Test
一、收集指标,建立指标体系
一般A/B实验指标体系需要三类实验指标:
1、核心指标:这种指标是决定实验成败的关键指标
2、辅助指标:用于辅助判断实验对其他因素的影响
3、反向指标:实验可能产生负面影响的指标
反向指标的作用是提示实验可能的负面影响,如果负面影响太高,即使其他指标通过,也可以否决实验结果
二、分配流量,AA实验
实际A/B实验中可能出现抽样不均的情况,结果可能会产生偏差,为了保证实验数据的变化仅仅是实验本身引起的,可以一次性抽取4,5组流量,选择任意两组不加策略空跑,监控核心指标数据,选取两组数据最接近的进行实验(控制变量)
对于不同的情况,有不同的分配流量的策略:
- 不影响用户体验:如UI 实验、文案类实验等,一般可以均匀分配流量实验,可以快速得到实验结论
- 不确定性较强的实验:如产品新功能上线,一般需小流量实验,尽量减小用户体验影响,在允许的时间内得到结论
- 希望收益最大化的实验:如运营活动等,尽可能将效果最大化,一般需要大流量实验,留出小部分对照组用于评估 ROI
三、假设检验
(1)通过确定实验周期(一般为7天),可以通过用户使用频率来判断产品周期
(2)确定实验所需样本量:可以利用功效分析,详见深入学习AB测试
(3)配对样本t检验:原假设是没有差异,因此计算出的
p
p
p值小于给定的阈值
α
\alpha
α时,拒绝原假设,即认为是有差异的(用python实现t检验)
四、决策方案
先给出是正收益、负收益还是持平的结论。
如果是正收益,需要进行实验反转——进一步验证实验是否正确。举个例子,实验目的为“按钮大小对该按钮点击率的影响”。A组流量按钮变大,B组为对照组,按钮大小正常,数据显示A组的按钮点击率升高,效果更好。在反转试验中,A组流量按钮恢复正常,B组变为实验组,按钮变大。如果此时数据显示B组按钮点击率升高,说明按钮大小对点击率有影响。
如果是负收益,优化迭代方案重新开发
如果持平,调整分流比例继续测试,也可能是没有改善
常见问题
一、辛普森悖论
辛普森悖论是指在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。
举个小例子,男生点击率增加,女生点击率增加,总体为何减少? 因为男女的点击率可能有较大差异,同时低点击率群体的占比增大。如原来男性20人,点击1人;女性100人,点击99人,总点击率100/120。 现在男性100人,点击6人;女性20人,点击20人,总点击率26/120。
要想避免辛普森悖论,必须合理的进行正确的流量分割,保证试验组和对照组里的用户特征是一致的,并且都具有代表性,可以代表总体用户特征。分层试验,交叉试验,定向试验是我们规避辛普森悖论的有力工具。
二、以偏概全
如果实验时间跑的太短,没有让高频用户和低频用户都包含在实验里,那么实验结果就只考虑了高频用户的行为,就会得到以偏概全的错误结论。
三、新奇效应
新奇效应,也是均值回归,在统计学上指的是对于概率事件的结果,随着试验次数的增加,结果往往趋近于均值。举个例子,假设让一个人回答若干个历史问题,这些问题是从庞大的题目数据库里随机抽取的,那么这个人一次测试的分数很有可能高于他自身能力获得的分数(超常发挥),也可能低于,但是测试若干次,分数会接近他的真实平均水平。
在A/B测试中,试验早期用户因为新奇会关注新改动,但是往往前期显著的提升在之后几天或者几周的测试中会逐渐消失。因此在做评估的时候,需要观测指标到稳定态后,再做评估。
四、不同用户群体的差异
很多情况下,对新用户可能实验组更好,老用户对照组更好;对年轻人实验组更好,中年人对照组更好,作为数据分析师,分析实验结论时,还要关注用户群体的差异。