零碎知识——AB实验

1. AB测试流程?

明确实验目的, 设计实验方案, 确定核心目标 —> 进行人群分组, 保证AA —> 收集数据 —> 分析观察

2. AB实验结果不显著?

  1. 样本量不满足,犯了第二类错误;
  2. 整体不显著,可以进行维度拆分,看拆分后是否显著(在显著的维度(如城市)再进行一次实验,看假设是否得到验证,可能没有达到最小样本量);
  3. 实验周期需要平稳,新奇效应和改变厌恶;
  4. 分发的策略能被多少用户看到,看到的用户有多少能感知到策略的差异等等

实验结果显著就能上线吗?

  1. 犯了第一类错误;
  2. 新奇效应还没有结束, 指标还没有稳定;
  3. 没有做AA;
  4. 实验周期内,其他部门对实验用户做了其它活动

哈希分桶?
对实验对象的某个 ID 字段进行哈希后对 100 取模,根据结果值进入不同的桶,多个不同的组分别占有一定比例的桶。实验对象在哈希取模之后,会得到 0 ~ 99 的一个数,即为该实验对象落入的桶。这个桶所属的组就是该实验对象的组。称为CR,完全随机分组.

但是由于完全随机的不确定性,分完组后,各个组的实验对象在某些指标特性上可能天然就分布不均,所以可采用RR(Re-Randomization)实验.

RR 是在每次跑 CR 之后,验证 CR 的分组结果组间的差异是否小于实验设定的阈值。当各组的观察指标小于阈值或者重新分组次数大于最大允许分组次数后,停止分组。

RR 通过牺牲计算时间,能在一定概率上得到符合要求的分组。

最小样本量?
主要由显著性水平、统计功效、方差以及预期提升决定。
β=P(接受H0 | H0为假),结合poewr = 1 - β即可得到。与方差成正比,与(μ1 - μ0)^2成反比。

抽样的最小样本量?
置信度,最大允许误差,样本方差(可由历史数据估计)。中心极限定理

检验方式?

  • 对于率指标,用卡方检验(只有两个组的话,和z检验相同);
  • 对于均值类指标,用t检验。

AB测试,第一天测试A组数据特别高,第二天测试B组数据特别高,第三天AB组差不多,这种情况应该如何看待?然后怎么做?

  1. 增加实验流量,流量越大,随机导致的波动会越小
  2. 开启aa实验确保分组均匀
  3. 增加实验观测时长

3. 什么情况下不能做ABtest?

  1. 总样本量过少;
  2. 经济成本或道德成本过大;
  3. 不能有区别对待的,否则被投诉与举报风险较大的,公关风险大的;

4. ab实验如果在同一个层要考量多个指标,p值如何定?

对于小规模(<20)假设检验,可用邦费罗尼修正,即将显著性水平调整为α/N,提高拒绝原假设的门槛。

对于大规模的假设检验,用FDR,假设共有N个假设检验,其中有N0个的原假设是真的,决策拒绝了R个原假设,但其中有a个原假设是真的,即犯了第一类错误。那么定义错误发现比例为a/R。
但a是未知的,所以可控制错误发现比例的期望,叫做错误发现率,即FDR。其中一种基于FDR的决策方法叫BH,就是先将N个假设检验的p值按从小到大排列,记i0为pi<i*q/N的最大索引值,然后拒绝所有i<=i0的原假设Hi。这样就是水平q上控制了FDR。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值