1. 什么是A/B测试
A/B测试是为 web 或 app 界面或流程制作两个(A/B)或多个版本,在同一时间维度,分别让组成成分相同(相似)的访客群组(目标人群)随机的访问这些版本,收集各群组的用户体验数据和业务数据,最后分析、评估出最好版本,正式采用。
2. A/B测试目的
-
消除客户体验(UX)设计中不同意见的纷争,根据实际效果确定最佳方案;
-
通过对比试验,找到问题的真正原因,提高产品设计和运营水平;
-
建立数据驱动、持续不断优化的闭环过程;
-
通过A/B测试,降低新产品或新特性的发布风险,为产品创新提供保障。
3. A/B测试基本步骤
-
分析现状并建立假设:分析业务数据,确定当前最关键的改进点,并作出优化的假设。提出优化的建议。
-
设定目标,制定方案:设置主要目标,用来衡量各优化版本的优劣;设置辅助目标,用来评估优化版本对其他方面的影响。
-
设计与开发:制作2个或多个优化版本的设计原型并完成技术实现。
-
分配流量:确定每个线上测试版本的分流比例,初始阶段,优化方案的流量设置可以较小,根据情况逐渐增加流量。
-
采集并分析数据:收集实验数据,进行有效性和效果判断:统计显著性达到95%或以上并且维持一段时间,实验可以结束;如果在95%以下,则可能需要延长测试时间;如果很长时间统计显著性不能达到95%甚至90%,则需要决定是否中止试验。
-
做出决策:根据试验结果确定发布新版本、调整分流比例继续测试或者在试验效果未达成的情况下继续优化迭代方案重新开发上线试验。
北极星指标(North Star Metric),也叫作第一关键指标(One Metric That Matters),是指在产品的当前阶段与业务/战略相关的绝对核心指标,一旦确立就像北极星一样闪耀在空中,指引团队向同一个方向迈进。
4. A/B测试的原理——假设检验
因为AB测试是检验来自两个组样本平均数的差异性,从而判断它们各自代表的总体的差异是否显著,因此使用的是两个总体均值之差的检验。即使用统计量Z。具体见假设检验假设检验。
5.A/B测试的关键点
目标KPI
A/B测试中我们需要制定目标KPI:指评判AB测试效果优劣的最终指标。例如:提升多少点击率或者提升多少转化率。
策略
为了达到我们制定的目标KPI,我们需要采取一定的策略:AB组分别采取的策略的差异点。例如:改变商品展示图片,改变文案等等;一般有多少个差异点就需要多少次测试;
A/B测试的作用
- 目标KPI的最大化:找到对KPI最优的策略,保证目标KPI最大化;
- 后续分析,沉淀诀窍:由于人群中有差异,通过研究不同子人群对于不同策略的响应程度,可以获得每组人群在策略上的偏好,帮助未来更好的个性化创新和设计。
6. AB测试常见问题和应对方案
1. 如何分配流量
- 零售行业的线下AB测试,一般用于测试不同优惠券带来的业务指标的变化。基于优惠券的具体设置方式,对流量分配有着不同的实施方法。
- 多种优惠券设计相似:流量均分,4组策略每组20%,对照组20%
- 优惠券设计不确定性大:最小化测试组,10%测试,90%对照
- 优惠券效用过,仅为追踪效果:少量对照组,10%对照,90%测试
- 常用的分流方法
- sql中的rand函数
- 利用尾数的随机ID
不管如何做分流,用来做对照组和测试组的用户要做好标记方便之后进行分析和统计。
2.如何确定测试的最小人数
随机波动:由于我们的测试样本不可能都一模一样,所以我们设定的两个一模一样的对照组的结果也有可能出现不一样的结果,这就是随机波动。随机波动会进一步影响测试的结果。
最小样本量:为了使测试结果显著有效的同时保证最小的成本,我们首先要确保测试组里人数最少的一组达到验证效果有效性的最小样本数量。现在我们有很多网站可以帮我们计算最小样本量,网站如下A/B测试样本量计算网站
- 比例类目标KPI:
- baseline conversion rate:基准率,例如:点击率;
- minimum detectable effect:最小特侧率,例如:提升3%的点击率;
- significance level α:显著水平,一般为5%;
- statistical power 1-β:统计功效也就是 H 0 H_0 H0错误并拒绝 H 0 H_0 H0,一般取80%或者90%,这里需要理解弃真错误和取假错误
H 0 H_0 H0 |
---|