AB 测试


AB测试的前身是随机对照试验—双盲测试,是“医疗/生物试验将研究对象随机分组,对不同组实施不同的干预,对照起效果”

AB测试将不同的用户分成不同的组,同时测试不同的方案,通过用户反馈的真实数据来找出哪一个方案更好的过程。解决的是“多种方案需要拍脑袋确认哪一种更好的问题”

特性:

  • 先验性:A/B Test是一种“先验体系”,属于预测型结论(与其相对的是后验型的经验归纳)。同样是一个方案是否好坏:A/B Test通过小流量测试获得具有代表性的试验结论,来验证方案好坏后再决定是否推广到全量;后验型则是通过发布版本后的版本数据对比总结得到
  • 并行性:是指支持两个或以上的试验同时在线,并需要保证其每个试验所处环境一致。并行性极大地降低了多试验的时间成本。
  • 科学性:A/B Test是用科学的方式来验证方案,科学性体现在流量分配的科学性,统计的科学性。A/B Test需要将相似特征的用户均匀地分派到实验组别中,确保每个组别的用户特征相同

当产品在市场上的竞争环境激烈,项目上线需要争取有利时机时,往往凭借战略决策来决定上线与否而不是ab实验,ab实验有一段观察期而且需要外部条件相对稳定才能得出客观的结论,适用于产品的发展期处于比较平稳的时候,防止决策错误导致数据下降;

实时分析是有必要的,实时AB Test必要性不是很强;

多数的AB test系统并不具备决策推全后仍然持续观察的能力,有一些关乎实现公司或者产品长期战略目标的功能/算法,可能短期内会导致指标下降或者没有明显增长,但是也必须要上线;

AB Test帮助你在现有流量中获取更多的收益,或者在现有的流量中提升ROI,或者说在现有用户基础上提升活跃度,但是在衡量对用户量增长或者获取新流量是否有帮助上,AB Test所起作用不大

AB Test 还有一个缺点,就是只能做小范围的效果比较,比如作用于同一场景使用不同算法的效果比较;比如它不能告诉我们,A业务的推荐算法是否比B业务的推荐算法做得好;也就是说它不能衡量一个模型的迁移和泛化能力

抽样时要保证样本具有足够的代表性需要做到两点:

  • 随机抽样
  • 足够的样本量

AB Test中的样本(实验组和对照组用户群)是根据个体(具体某个用户)的某个属性(userid, cookie等)进行hash取模后抽取出来的。hash算法保证了抽取的随机性。因为互联网数据海量以及获取方便的特点,简单随机抽样是最常用的抽样方法。

AB测试是为同一个目标制定两个方案,在同一时间维度,分别让组成成分相同或相似的用户群组随机的使用一个方案,收集各群组的用户体验数据和业务数据,最后根据显著性检验分析评估出最好的版本正式采用。

如何选择采用哪种假设检验?

Z检验:一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。在国内也被称作u检验。

T检验:主要用于样本含量较小(例如n<30),总体标准差未知的正态分布。T检验是用t分布理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。

卡方检验:卡方检验是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。

img

img

preview

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值