A/B测试

本文探讨了A/B测试的作用、目的和实验步骤,包括指标选择、流量分配、效果评估。流量分配要考虑实验速度与样本量,实验时间取决于产品特性和用户行为周期。效果评估涉及多种角度,如比例类指标可使用卡方或Z检验。文章还提及了样本量计算公式及其与参数估计的关系,并讨论了更复杂的实验设计。
摘要由CSDN通过智能技术生成

文献1
文献2

一、作用和目的

1.比较何者更好
2.计算收益:如ROI

二、实验步骤

在这里插入图片描述
1.选取指标
可分为核心判定指标,辅助观察指标,以及否决指标。
在这里插入图片描述
2.流量分配
在这里插入图片描述
总结以上三种,其实可以认为影响大的就要用小流量作为实验组,影响小的就可以均匀分组(理论上均匀分组是最好的),而第三种情况,一般来说像促销活动不会有负面的影响,所以可以在均匀的基础上更激进一点,只留小部分无活动流量作为对照组。

我其实不太明白流量分配和试验速度之间的关系。→第一篇文献中接下来有讲到,例如我们需要20w的样本,但每天只有5w用户能用于实验,那就需要4天。如果流量分配多,例如一天10w用户,则两天就可以完成实验。不过文献1与2中也都有提到,ab测试持续的时间要根据具体的产品来确定,因为不同产品用户的行为周期是不一样的。虽然我们通常希望更快地得到结论,但是由于存在新奇效应,用户一开始可能倾向于实验组,但长远来看就不一定了。

3.效果评估
从以下四个角度出发:
在这里插入图片描述
文献一中说,比例类指标是用卡方检验。这个固然可以,但应该也可以用比例类的Z检验。
前两个角度分别对应AB测试的两个目的。第四个角度,比如很多情况下,对新用户可能实验组更好,老用户对照组更好;对年轻人实验组更好,中年人对照组更好。

4.在实验结束后,可以进一步探索:
在这里插入图片描述
文献一后续还有更高级以及更复杂的实验设计,详见原文。

关于样本量的确定,有一个最小样本量的计算公式
在这里插入图片描述
其中difference指的是两组数值的差异,如注册转换率50%到60%,那么Δ(即difference)就是10%.
β指的是规定的期望功效,即(一减去犯第二类错误的概率)一般设为0.8;第一类错误概率α设为0.05。
具体原理可见https://zhuanlan.zhihu.com/p/223080555
我不是特别能理解该公式,以及该公式和书上参数估计部分中给出的样本量计算公式之间的关系。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值