A / B测试介绍
A / B 测试是一种流行的网页优化方法,可以用于增加转化率注册率等网页指标。简单来说,就是为同一个目标制定两个方案(比如两个页面),将产品的用户流量分割成A / B 两组,一组试验组,一组对照组,两组用户特点类似,并且同时运行。试验运行一段时间后分别统计两组用户的表现,再将数据结果进行对比,就可以科学的帮助决策。
度量选择
1.不变度量
一个。Cookie的数量:学生需要访问课程概述页面,才能点击免费开始按钮进入到实验,是分组单元,必须具有一致性。
b点击次数:因为访问课程概述页面不变,所以点击次数也不变。
C. 点击概率:访问课程概述不变,点击次数不变,则点击概率也不变。
2.评估度量:
实验更改是通过提醒每周5小时学习时间为学生预先设定明确的期望,从而减少因为没有足够的时间而离开免费试学,并因此受挫的学生数量,同时不会在很大程度上减少继续通过免费试学和最终完成课程的学生数量。
一个总转化率:。实验希望减少因为没有足够的时间而离开免费试学并因此受挫的学生数量,而点击次数不变因此,总换化率是一个需要观察的度量,并且期望结果是减小。
b净转化率:实验希望付费用户影响不大,并且点击次数不变,因此期望结果是不变。
3.未使用的度量:
。一个用户ID数量:发生于试验之后,会受到实验的干扰,但是由于实验组和对照组的样本数量不一定相同,所以该度量的变化不一定是实验造成的,因此不适合作为不变度量和评估度量。
b留存率:留存率也发生于试验之后,也是比较不错的评估指标不过经过后续的计算,我们会发现它需要过多的页面浏览量和试验运行时间,因此在规定的时间内我们无法采集足够的样本数据,也不适合作为评估度量。
测量标准偏差
对每个评估指标说明你是否认为分析估计与经验变异是类似还是不同(如果不同,在时间允许的情况下有必要进行经验估计)。
标准偏差公式:s = sqrt(p *(1-p)/ n
1.总转化率:
P = 0.20625,n = 50000 * 0.08(样本量为50000,点击概率为0.08,因此点击数为400,总转化率给定)
SD = 0.0202
总转化率的分析单位是以点击“开始免费试学”按钮的唯一的cookie的数量,这也是实验的转移单位,因
此,分析单位等于转移单位,所以分析估计与经验变异类似。
2.净转化率
P = 0.1093125,N = 400
SD = 0.0156
净转化率的分析单位同总转化率一样,并且也是实验的转移单位,所以分析变异性可能匹配经验变异性。
3.留存率
P = 0.53,N = 50000 * 0.08 * 0.20625 = 82.5
SD = 0.0549
留存率以登录用户为分母,与转移单位不一致,所以分析估计与经验变异不一致。
规模
使用不邦费罗尼矫正:
因为本实验中总转化率和净转化率并非独立的,而是相关的,使用矫正会使试验结果过于保守。
样本量使用在线计算器计算
样本数量和功效
1)基于总转换率:645875
总转化率:0.20625,最小可探测量:1%样本数量通过计算器测出为:25835
所以实验组页面浏览量:25835 / 0.08 = 322938,对照组也是
所以总页面浏览量为:322938 * 2 = 645875
2)基于净转换率:685325
所以样本量选择685325
持续时间和暴光比例
1)实验不涉及数据库的改变,也没有敏感信息,因此风险较小,考虑到实验周期不能过长,我选择0.75的曝光比例
2)样本数量为685325,曝光比例为0.75,则周期为23天。(已知每日浏览量为4万)
试验分析
对于不变量指标,在置信区间95%下期望观测到的值与实际观测值对比。
1. Cookie的数量:
实验组页面浏览量:344660,页面总量,饼干分布概率为0.5
SE = SQRT(0.5 *(1-0.5)/(345543 + 344660))= 0.0006018
M = SE * 1.96 = 0.0011796
置信区间= [0.4988,0.5012]
观察值= 0.5006
通过检查。
置信区间= [0.4959,0.5041]
观察值= 0.5005
通过检查。
3.点击概率
置信区间= [0.0812,0.0830]
观察值= 0.0821
通过检查。
如果置信区间不包含0,这个指标具有统计显着性。如果置信区间不包含实际显着性边界(这就是说,你可以确信变化对业务是有用的)
d最小= 0.01
控制组。实验组
点击17293。17260
注册。3423
总转化率:0.2189。0.1983
合并概率:(3785 + 3423)/(1793 + 17260)= 0.2086
SE = SQRT(0.2086 *(1-0.2086)*(17293分之1+一万七千二百六十○分之一))= 0.004372
M = SE * 1.96 = 0.008568
d = 3423 / 17260-3785 / 17293 = -0.02055
置信区间= [ - 0.0291,-0.0120]
置信区间不包括0时,所以具有统计显着性;
置信区间不包含0.01,所以具有实际显着性
2.净转化率
d最小= 0.0075
置信区间= [-0.0116,0.0019]
置信区间包括0,不具有统计显着性;
置信区间包含0.0075,不具有实际显着性
符号检验
总转化率
成功数量:4,试验次数:23
双尾P值:0.0026
0.0026 <0.025,具有统计显着性
2.净转化率
双尾P值:0.6776
0.6776> 0.025,不具有统计显着性;
汇总
没有使用Bonferroni校正,因为评估度量是相关的,不需要保守的Bonferroni校正。
假设检验与符号检验的结构是一致的。
建议
不建议建议发布这个更改。
1)总转化率具有统计显着性和实际显着性,说明'减少因为没有足够的时间而离开免费试学并因此受挫的学生数量'这个实验预计结果实现了;
2)净转化率不具有统计显着性和实际显着性,但是转化率的置信包含负数,置信区间的含义是“我们有95%的信心试验结果会落在这个区间”,根据此处的计算结果(-0.0116,0.0019),也就是说有很大的概率净转化率会减少,并且有一定的概率净转化率的减少会超过实际显着性0.0075。因此我们无法说明”降低的程度不大“所以不建议启动。
综合以上,我不建议发布这个更改。
后续试验
就我个人而言,是比较讨厌跳转页面或者强迫性的选择页面的;并且计划性'减少因为没有足够的时间而离开免费试学并因此受挫的学生数量'有点不太公平和自由。
我觉得,可以做这样一个实验:在试学页面右下角设置一个QA框,用户输入本课问题关键词,可以出现相关解答或者解释。
用以提高用户的留存率。
不变度量:
用户ID数量:即参与免费试学的用户数量,这发生在实验之前,理论上是不变的。
评估度量:
留存率:即在14天的期限过后仍参加课程(因此至少进行了一次付费)的用户ID数量除以完成登录的用户ID的数量(实验想通过QA框,帮助试学阶段用户理解学习内容加强自信和兴趣,进一步吸引并留住客户,最终达到客户付费并完成学习)
转移单位:
用户ID数量:实验跟踪的是用户登录之后的行为,用户ID数量可以作为转移单位。