数据分析之AB test ( AB 测试 ) _ Day 2 of 6 days

本文探讨了AB测试的起源,起源于医药实验,重点在于互联网中不让目标用户察觉。通过拼多多推荐算法案例,阐述了AB测试的通用思维,包括测试对象、分组、KPI设定、样本量计算、测试周期、分流比例和同质性保持等关键点。同时,讲解了测试中的监控、异常终止以及测试后的结果回收、计算和显著性分析。最后,提出测试结果的解读、定性和反思是推动改进的重要环节。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一. AB test 的要点和起源

  •   起源于医药分组实验(Double Blind Test)。
  •  互联网测试重点:不让目标群众知道被测试。


 二. AB test通用思维

以拼多多推荐算法效果计算为具体案例

测试前

  1.  测试对象(变量)是什么?(分析思维):用算法推荐 vs 不用算法推荐
  2.  实验需要分多少组?(分析思维):两组(实验可以快速迭代,每次分两组)or 多组(试验周期长,为了一次可以得到多个结果,分多组)
  3.  目标KPI是什么?(业务思维):页面转化率
  4.  当前KPI是多少?(技术):页面埋码跳转率统计
  5.  预期KPI最少提升多少?(技术+业务思维):40% to 60%
  6.  最小样本量为每组多少?(技术) 利用网站计算 http://www.evanmiller.org/ab-testing/sample-size.html
  7.  测试周期有多长?(业务思维):基于第6问计算:得出需要2天可以达到最小样本量(用户流量够大)
  8.  分流比例如何分配?(分析思维):新实验伊始(最小流量开始,逐渐放大,例如从10%的随机人群开始);多试验并行(最小流量开始,实验组均分,例如1:1:8然后逐渐扩大);实验后期追踪效果(保留表现最好的实验组扩大到大流量,控制组(空白组)保持最小流量用于计算效果,例如90%实验组比10%空白组)
  9.  如何保持分组的同质性?(分析思维):交易频次,浏览历史,偏好相似

测试中

  1.  如何确认测试已生效?(技术):分配比例是否生效;实验手段是否生效;空表组是否空白(流量监控和展示结果对比)
  2.  是否需要终止测试?(业务思维):实验流量转化率不明原因低于控制组
  3.  如何终止测试?(技术):算法组流量全部切给控制组

测试后

3大实现 (技术)

  1.   测试结果如何回收:大数据平台整合人浏览行为,实时看版
  2.   测试结果如何计算:转化率=转化人数/页面浏览人数
  3.   结果是否具有显著性:使用网上工具测试显著性(前文链接)

3大思考

  1. 测试结果如何解读?(业务思维)
  2. 测试结果如何定性?(分析思维)
  3. 如何反思本次测试可能的漏洞?(分析思维)

18问万能通用模板 

阶段关键项关键项属性实例(医药测试)
I. 测试前实验测试对象(变量)是什么?分析思维使用新药 vs 使用安慰剂
实验需要分多少组? 分析思维两组
目标KPI是什么?业务思维症状缓解人数比例
现有KPI是多少?技术10%
预期KPI提升是多少?技术+业务思维50%
最小流量组的最低样本量是多少?技术7
实验预计持续周期有多长?业务思维30天
实验分流比例怎么分配?分析思维50% :50%
如何保证分组的同质性?技术+分析思维在同等程度病例中随机分组
II. 测试中如何确认流量分配生效?技术数一下两组人是否都是7人
如何确认测试组生效?技术确认是否使用新药
如何确认空白组空白?技术确认是否使用安慰剂
是否需要终止实验?业务思维观察实验人群有无大面积不良反应
如何终止实验?技术停止给药
III. 测试后测试结果如何回收?技术观察每组人群用药后症状表现并记录
测试结果如何计算?技术统计症状缓解人数后计算比例
结果是否具有显著性?技术利用统计工具计算差异显著性
测试结果如何解读?业务思维从显著性结果倒推医理原因
测试结果如何定性?分析思维新药是否有显著治愈效果的科学定论
如何反思本次测试可能的漏洞?分析思维人群同质性除了随机分组是否需要进一步确保?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值