AB 测试

氧小氢

于 2021-01-03 21:12:17 发布

阅读量475

点赞数

文章标签： A/B 测试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42510210/article/details/112155357

版权

业务专栏收录该内容

12 篇文章 3 订阅

订阅专栏

AB测试的前身是随机对照试验—双盲测试，是“医疗/生物试验将研究对象随机分组，对不同组实施不同的干预，对照起效果”

AB测试将不同的用户分成不同的组，同时测试不同的方案，通过用户反馈的真实数据来找出哪一个方案更好的过程。解决的是“多种方案需要拍脑袋确认哪一种更好的问题”

特性：

先验性：A/B Test是一种“先验体系”，属于预测型结论（与其相对的是后验型的经验归纳）。同样是一个方案是否好坏：A/B Test通过小流量测试获得具有代表性的试验结论，来验证方案好坏后再决定是否推广到全量；后验型则是通过发布版本后的版本数据对比总结得到
并行性：是指支持两个或以上的试验同时在线，并需要保证其每个试验所处环境一致。并行性极大地降低了多试验的时间成本。
科学性：A/B Test是用科学的方式来验证方案，科学性体现在流量分配的科学性，统计的科学性。A/B Test需要将相似特征的用户均匀地分派到实验组别中，确保每个组别的用户特征相同

当产品在市场上的竞争环境激烈，项目上线需要争取有利时机时，往往凭借战略决策来决定上线与否而不是ab实验，ab实验有一段观察期而且需要外部条件相对稳定才能得出客观的结论，适用于产品的发展期处于比较平稳的时候，防止决策错误导致数据下降；

实时分析是有必要的，实时AB Test必要性不是很强；

多数的AB test系统并不具备决策推全后仍然持续观察的能力，有一些关乎实现公司或者产品长期战略目标的功能/算法，可能短期内会导致指标下降或者没有明显增长，但是也必须要上线；

AB Test帮助你在现有流量中获取更多的收益，或者在现有的流量中提升ROI，或者说在现有用户基础上提升活跃度，但是在衡量对用户量增长或者获取新流量是否有帮助上，AB Test所起作用不大

AB Test 还有一个缺点，就是只能做小范围的效果比较，比如作用于同一场景使用不同算法的效果比较；比如它不能告诉我们，A业务的推荐算法是否比B业务的推荐算法做得好；也就是说它不能衡量一个模型的迁移和泛化能力

抽样时要保证样本具有足够的代表性需要做到两点：

随机抽样
足够的样本量

AB Test中的样本（实验组和对照组用户群）是根据个体（具体某个用户）的某个属性（userid, cookie等)进行hash取模后抽取出来的。hash算法保证了抽取的随机性。因为互联网数据海量以及获取方便的特点，简单随机抽样是最常用的抽样方法。

AB测试是为同一个目标制定两个方案，在同一时间维度，分别让组成成分相同或相似的用户群组随机的使用一个方案，收集各群组的用户体验数据和业务数据，最后根据显著性检验分析评估出最好的版本正式采用。

如何选择采用哪种假设检验？

Z检验：一般用于大样本（即样本容量大于30）平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率，从而比较两个平均数的差异是否显著。在国内也被称作u检验。

T检验：主要用于样本含量较小（例如n<30)，总体标准差未知的正态分布。T检验是用t分布理论来推断差异发生的概率，从而比较两个平均数的差异是否显著。

卡方检验：卡方检验是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，如果卡方值越大，二者偏差程度越大；反之，二者偏差越小；若两个值完全相等时，卡方值就为0，表明理论值完全符合。

preview

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。