小流量 AB 测试能做吗?能!

AB测试对于产品和运营优化的重要性有目共睹。为了能更快的得到试验结果,试验流量越大越好。

但是当流量不够的时候怎么办呢?小流量AB测试能不能做?能!那么,怎么做?

下面是6个节约流量的方法。

消除异常数据的影响

当点击量作为指标时,有时会看到少量设备贡献了数万的点击。这些设备可能是出了bug处于异常状态,也可能是在运行自动化测试,总之不会是正常的业务数据。如果将这些数据计入统计结果,将会对结果的准确性产生很大的影响。严重的情况只能重做试验,相当于本次试验流量全浪费掉了。所以极端用户的数据不进行统计,实践中让点击量最大的1%用户数据不参与计算。

正确统计进入试验的用户数

转化漏斗中的每个步骤都可以进行AB测试。假设在转化漏斗的第3层的页面进行AB测试,在统计试验UV的时候,比较科学的方法是将进入到该页面的用户统计为试验UV,而不是所有访客。如果没进入该页面的用户也统计为试验UV,则会稀释试验数据。

假设到达该页面的访客为10%,该页面转化率为50%,如果想检测出10%的提升(50%提升到55%),根据公式计算大概需要1600试验样本,对应总访客16000。如果把所有访客作为试验样本参与统计,则该种算法下页面转化率为5%(只有原来的十分之一),同样想检测出10%的提升(5%提升到5.5%),则需要30400试验样本,对应总访客也是30400。

这个例子里节约了大概1/2的流量,如果试验页面的转化率更高,前面漏斗的转化率更低,节约效果会更明显。

点击转化率比点击数量更容易获得统计显著的结果

有些场景下,如果认为用户多次点击和单次的点击差别并不大(比如下载,注册,看广告等),可以观察点击转化率指标的统计结果。转化率是去重的,用户只要点击过就计算为1,否则计算为0。同样的试验样本,点击量的标准差是一定大于转化率的。

仍然用上面提到的公式举例:

假设用户点击量的分布为0次20%,1次20%,2次20%,3次20%,4次20%。

则点击量均值为2方差为2,想检测出10%的提升需要800样本量。

转化率为80%,方差为0.16,想检测出10%的提升需要400样本量。

这个例子里节约了1/2的样本量,如果点击量的分布更加分散,节约效果会更明显。

原始版本的流量不要浪费掉

在有些情况下,为了稳妥起见往往只会让一小部分流量(比如总用户的1%)看到试验版本,99%的用户看到原始版本,如果统计试验数据的时候,看到原始版本的用户只挑出和看到试验版本用户数相同的人数(总用户的1%)来参与统计,则另外98%的流量相当于浪费了,他们实际上是对试验有帮助的。当试验版本和原始版本样本数不相同时,有一个计算等效样本数的公式:

N = (1/Ncontrol + 1/Nexperimnet)-1

当 Ncontrol=Nexperimnet 时计算得出 N=Nexperimnet/2

如果原始版本(即control版本)的流量全部参与统计,则 Ncontrol>>Nexperimnet 计算得出 N=Nexperimnet

等效样本数量翻倍了,相当于又节约了1/2的流量。

善用分层试验

想优化的地方太多了,同时跑多个试验是常态,是不是流量就不够用了?如果试验之间互相不会干扰,可以考虑分层试验。分层试验即允许同一个用户同时参加多个试验,通过流量分配的随机算法保证试验结果的代表性。原来流量只能做一个试验,现在不相关的试验可以一起做了,效率成倍增加。

同层试验共用原始版本数据

同层的多个试验,大家的原始版本是完全相同的,分开各自统计显然浪费了数据。以4个试验为例:

如果每个试验有独立的原始版本和试验版本,流量分配都是总流量的1/8,则根据上面提到的等效样本量公式,每个试验的等效样本数为总流量的1/16。如果4个试验的原始版本合并为公共的原始版本(占总流量1/2),则每个试验的等效样本数为总流量的1/10。等效样本量提升了60%。

如果多个AB测试试验优化的是同一指标,还可以进一步的对公共原始版本的流量进行微调。令n为试验数量,则 (Ncontrol/Nexperimnet)2 = n 时等效样本数量达到最大值。n=4代入得到原始版本占总流量1/3,每个试验版本占总流量1/6,最终每个试验的等效样本数为总流量的1/9。等效样本量又提升了11%。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
零、度量选择 列出你将在此用作不变度量和评估度量的度量。 不变度量:cokie的数量、点击次数、点击概率 评估度量:总转化率、留存率、净转化率 对于每个度量,解释你为什么使用或不使用它作为不变度量和评估度量。此外,说明你期望从评估度量中获得什么试验结果。 cookie的数量(即访问课程概述页面的唯一 cookie 的数量):不变度量,应该使控制组和实验组的cooki数量相同,因此要把它作为不变度量。 用户ID的数量(即参与免费试学的用户数量):不作为不变度量也不作为评估度量,注册有可能是在开始免费试用页面,所以我们期望在控制组合实验组能看到不同的值,所以不能作为不变度量,实验中的访客人数可能不同,注册用户的数量可能会有波动,这会影响实验结果,因此它也不是一个好的评估度量。 点击次数(即点击“开始免费试学”按钮的唯一 cookie 的数量(在免费试学筛选器触发前发生)):不变度量,用户需要点击开始免费试学按钮,实验才会发生,所以需要使控制组和实验组的点击次数保持一致。 点击概率(即点击“开始免费试学”按钮的唯一 cookie 的数量除以查看课程概述页的唯一 cookie 的数量所得的比率):不变度量,点击发生在实验之前,所以也期望它在控制组和实验组保持一致。 总转化率(即完成登录并参加免费试学的用户 id 的数量除以点击“开始免费试学”按钮的唯一 cookie 的数量所得的比率):评估度量,在实验组点击免费试学会跳出弹框让用户继续选择是试学还是免费访问课程资料,而在控制组不会有这个选择,所以使用总转化率作为评估度量可以观察免费试学筛选器的影响。 留存率(即在 14 天的期限过后仍参加课程(因此至少进行了一次付费)的用户 id数量除以完成登录的用户 id 的数量):评估度量,它可以帮助了解免费试学筛选器是否影响了完成免费试用并付款的用户的比例,因此可以作为评估度量。 净转化率(即在 14 天的期限后仍参与课程的用户 id 的数量(因此至少进行了一次付费)除以点击了“开始免费试学”按钮的唯一 cookie 的数量所得的比率):评估度量,净转化率有助于观察免费试学筛选器是否有助于增加点击开始免费试学页面与付款用户的比率,因此可以作为评估度量。 期望结果:免费试学筛选器会减少没有足够时间而离开免费试学的用户数量,同时不会在很大程度上减少继续通过免费试学和最终完成课程 的学生数量。 一、测量标准偏差 列出你的每个评估度量的标准偏差 总转化率标准差:0.0202 留存率标准差:0.0549 净转化率标准差:0.0156 对于每个评估度量,说明你是否认为分析估计与经验变异是类似的,或者你是否期望它们是不同的(如果是这样,在时间允许的情况下将有必要进行经验估计)。简要说明每个情况的理由。 总转化率和净转化率都使用cookie的数量作为分母,cookie是转移的单位,也是分析单位,所以这两个度量的分析估计与经验变异是类似的,而留存率是以完成登录的用户ID的数量作为分母,与转移单位不一样,所以分析估计与经验变异是不同的。 二、规模 样本数量和支持 说明你是否会在分析阶段使用 Bonferroni 校正,并给出你适当开展试验所需的支持网页访问数。 不会使用Bonferroni 校正,因为测试中的指标具有很高的相关性,所以不适合使用 Bonferroni 校正。 所需的支持网页访问数: 总转化率:Probability of enrolling, given click为0.20625,d 最小 =0.01,可算出所需样本量为25835,所以需要25835 / 0.08 * 2 = 645875网页访问数 留存率:Probability of payment, given enroll为0.53,d 最小 =0.01,可算出所需样本量为39115,所以需要39115 / 0.08 / 0.20625 * 2 = 4741212网页访问数 净转化率:Probability of payment, given click为0.1093125,d 最小 =0.0075,可算出所需样本量为27413,所以需要27413 / 0.08 * 2 = 685325网页访问数 留存率所需的网页访问数太大,所需时间太长,所以将不使用留存率作为评估度量,只将总转化率和净转化率作为评估度量,总转化率和净转化率相差不多,但净转化率占比更大,因此所需页面浏览量为685325。 持续时间和风险暴露 说明你会将哪一部分流量转入此试验,以及鉴于此条件,你需要多少天来运行试验。 每天的访问量为40000,我会将70%的流量转入此试验,所需天数为685325 / (40000 * 70%) = 25天 说明你选择所转移流量部分的原因。你认为此试验对优达学城来说有多大风险

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值