一. AB test 的要点和起源
- 起源于医药分组实验(Double Blind Test)。
- 互联网测试重点:不让目标群众知道被测试。
二. AB test通用思维
以拼多多推荐算法效果计算为具体案例
测试前
- 测试对象(变量)是什么?(分析思维):用算法推荐 vs 不用算法推荐
- 实验需要分多少组?(分析思维):两组(实验可以快速迭代,每次分两组)or 多组(试验周期长,为了一次可以得到多个结果,分多组)
- 目标KPI是什么?(业务思维):页面转化率
- 当前KPI是多少?(技术):页面埋码跳转率统计
- 预期KPI最少提升多少?(技术+业务思维):40% to 60%
- 最小样本量为每组多少?(技术): 利用网站计算 http://www.evanmiller.org/ab-testing/sample-size.html
- 测试周期有多长?(业务思维):基于第6问计算:得出需要2天可以达到最小样本量(用户流量够大)
- 分流比例如何分配?(分析思维):新实验伊始(最小流量开始,逐渐放大,例如从10%的随机人群开始);多试验并行(最小流量开始,实验组均分,例如1:1:8然后逐渐扩大);实验后期追踪效果(保留表现最好的实验组扩大到大流量,控制组(空白组)保持最小流量用于计算效果,例如90%实验组比10%空白组)
- 如何保持分组的同质性?(分析思维):交易频次,浏览历史,偏好相似
测试中
- 如何确认测试已生效?(技术):分配比例是否生效;实验手段是否生效;空表组是否空白(流量监控和展示结果对比)
- 是否需要终止测试?(业务思维):实验流量转化率不明原因低于控制组
- 如何终止测试?(技术):算法组流量全部切给控制组
测试后
3大实现 (技术)
- 测试结果如何回收:大数据平台整合人浏览行为,实时看版
- 测试结果如何计算:转化率=转化人数/页面浏览人数
- 结果是否具有显著性:使用网上工具测试显著性(前文链接)
3大思考
- 测试结果如何解读?(业务思维)
- 测试结果如何定性?(分析思维)
- 如何反思本次测试可能的漏洞?(分析思维)
18问万能通用模板
阶段 | 关键项 | 关键项属性 | 实例(医药测试) |
I. 测试前 | 实验测试对象(变量)是什么? | 分析思维 | 使用新药 vs 使用安慰剂 |
实验需要分多少组? | 分析思维 | 两组 | |
目标KPI是什么? | 业务思维 | 症状缓解人数比例 | |
现有KPI是多少? | 技术 | 10% | |
预期KPI提升是多少? | 技术+业务思维 | 50% | |
最小流量组的最低样本量是多少? | 技术 | 7 | |
实验预计持续周期有多长? | 业务思维 | 30天 | |
实验分流比例怎么分配? | 分析思维 | 50% :50% | |
如何保证分组的同质性? | 技术+分析思维 | 在同等程度病例中随机分组 | |
II. 测试中 | 如何确认流量分配生效? | 技术 | 数一下两组人是否都是7人 |
如何确认测试组生效? | 技术 | 确认是否使用新药 | |
如何确认空白组空白? | 技术 | 确认是否使用安慰剂 | |
是否需要终止实验? | 业务思维 | 观察实验人群有无大面积不良反应 | |
如何终止实验? | 技术 | 停止给药 | |
III. 测试后 | 测试结果如何回收? | 技术 | 观察每组人群用药后症状表现并记录 |
测试结果如何计算? | 技术 | 统计症状缓解人数后计算比例 | |
结果是否具有显著性? | 技术 | 利用统计工具计算差异显著性 | |
测试结果如何解读? | 业务思维 | 从显著性结果倒推医理原因 | |
测试结果如何定性? | 分析思维 | 新药是否有显著治愈效果的科学定论 | |
如何反思本次测试可能的漏洞? | 分析思维 | 人群同质性除了随机分组是否需要进一步确保? |