一、作用和目的
1.比较何者更好
2.计算收益:如ROI
二、实验步骤
1.选取指标
可分为核心判定指标,辅助观察指标,以及否决指标。
2.流量分配
总结以上三种,其实可以认为影响大的就要用小流量作为实验组,影响小的就可以均匀分组(理论上均匀分组是最好的),而第三种情况,一般来说像促销活动不会有负面的影响,所以可以在均匀的基础上更激进一点,只留小部分无活动流量作为对照组。
我其实不太明白流量分配和试验速度之间的关系。→第一篇文献中接下来有讲到,例如我们需要20w的样本,但每天只有5w用户能用于实验,那就需要4天。如果流量分配多,例如一天10w用户,则两天就可以完成实验。不过文献1与2中也都有提到,ab测试持续的时间要根据具体的产品来确定,因为不同产品用户的行为周期是不一样的。虽然我们通常希望更快地得到结论,但是由于存在新奇效应,用户一开始可能倾向于实验组,但长远来看就不一定了。
3.效果评估
从以下四个角度出发:
文献一中说,比例类指标是用卡方检验。这个固然可以,但应该也可以用比例类的Z检验。
前两个角度分别对应AB测试的两个目的。第四个角度,比如很多情况下,对新用户可能实验组更好,老用户对照组更好;对年轻人实验组更好,中年人对照组更好。
4.在实验结束后,可以进一步探索:
文献一后续还有更高级以及更复杂的实验设计,详见原文。
关于样本量的确定,有一个最小样本量的计算公式
其中difference指的是两组数值的差异,如注册转换率50%到60%,那么Δ(即difference)就是10%.
β指的是规定的期望功效,即(一减去犯第二类错误的概率)一般设为0.8;第一类错误概率α设为0.05。
具体原理可见https://zhuanlan.zhihu.com/p/223080555
我不是特别能理解该公式,以及该公式和书上参数估计部分中给出的样本量计算公式之间的关系。