【论文阅读】Improving the Sensitivity of Online Controlled Experiments by Utilizing Pre-Experiment Data

中心思想

通过降低样本统计量的方差,增加t检验的敏感度,在使用更少的数据量,更短的A/B test时间的情况下(双总体独立样本t检验),获取更显著的结果:
t = Y t ˉ − Y c ˉ v a r ( Y t ˉ − Y c ˉ ) t = \frac{\bar{Y_t} - \bar{Y_c} }{\sqrt{var(\bar{Y_t} - \bar{Y_c})}} t=var(YtˉYcˉ) YtˉYcˉ
若两个统计量真的存在差异,则当方差减少时,两个分布的重叠部分减小,一二类错误的概率减少,检验功效增加。
相关概念:第一类错误 α \alpha α,第二类错误 β \beta β,检验功效.

引用图片
由于样本间相互独立,因此: v a r ( Y t ˉ − Y c ˉ ) = v a r ( Y t ˉ ) + v a r ( Y c ˉ ) var(\bar{Y_t} - \bar{Y_c}) = var(\bar{Y_t}) + var(\bar{Y_c}) var(YtˉYcˉ)=var(Ytˉ)+var(Ycˉ)。即:降低样本统计量 Y ˉ \bar{Y} Yˉ的方差即可。

法1:分组(分层)

样本统计量方差 = 组内统计量方差 + 组间统计量方差
v a r ( Y t ˉ ) = ∑ k w k n σ k 2 + ∑ k w k n ( Y k ˉ − μ ) 2 var(\bar{Y_t}) = \sum_k{\frac{w_k}{n} {\sigma}^2_k}+ \sum_k{\frac{w_k}{n} (\bar{Y_k} - \mu)^2} var(Ytˉ)=knwkσk2+knwk(Ykˉμ)2
分层后,组间方差为0,仅剩组内方差。

法2 引入协变量:

通过引入协变量,增加额外的统计量信息,达到减小样本统计量方差的目的。
引入协变量,并使用
Y c v ˉ = Y ˉ − θ X ˉ + θ E ( X ˉ ) \bar{Y_{cv}} = \bar{Y} - \theta \bar{X} + \theta E(\bar{X}) Ycvˉ=YˉθXˉ+θE(Xˉ)
来估计样本均值 Y ˉ \bar{Y} Yˉ
v a r ( Y c v ˉ ) = v a r ( Y ˉ − θ X ˉ ) = v a r ( Y − θ X ) / n = v a r ( Y ) + θ 2 v a r ( X ) − 2 θ c o v ( Y , X ) var(\bar{Y_{cv}}) = var( \bar{Y} - \theta \bar{X}) = var( Y - \theta X)/n= var(Y) + {\theta}^2 var(X) - 2 \theta cov(Y, X) var(Ycvˉ)=var(YˉθXˉ)=var(YθX)/n=var(Y)+θ2var(X)2θcov(Y,X)
θ \theta θ求导,倒数为零时有最小值,此时:
v a r ( Y v c ˉ ) = v a r ( Y ˉ ) ( 1 − ρ 2 ) var(\bar{Y_{vc}}) = var(\bar{Y})(1-{\rho}^2) var(Yvcˉ)=var(Yˉ)(1ρ2)
ρ = c o v ( Y , X ) \rho = cov(Y, X) ρ=cov(Y,X)
即,引入的协变量与关心的指标Y的相关性越大,能减少的估计结果的方差就越大。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值