【论文阅读】Improving the Sensitivity of Online Controlled Experiments by Utilizing Pre-Experiment Data

最新推荐文章于 2021-06-18 16:23:38 发布

Iris__HU

最新推荐文章于 2021-06-18 16:23:38 发布

阅读量319

点赞数

分类专栏：论文阅读机器学习

本文链接：https://blog.csdn.net/huxiyan450/article/details/116890054

版权

论文阅读同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

机器学习

5 篇文章 1 订阅

订阅专栏

中心思想

通过降低样本统计量的方差，增加t检验的敏感度，在使用更少的数据量，更短的A/B test时间的情况下（双总体独立样本t检验），获取更显著的结果：
$\frac{\bar{Y_t} - \bar{Y_c} }{\sqrt{var(\bar{Y_t} - \bar{Y_c})}}$
若两个统计量真的存在差异，则当方差减少时，两个分布的重叠部分减小，一二类错误的概率减少，检验功效增加。
相关概念：第一类错误 $\alpha$ ，第二类错误 $\beta$ ，检验功效.

引用图片
由于样本间相互独立，因此： $var(\bar{Y_t} - \bar{Y_c}) = var(\bar{Y_t}) + var(\bar{Y_c})$ 。即：降低样本统计量 $\bar{Y}$ 的方差即可。

法1:分组（分层）

样本统计量方差 = 组内统计量方差 + 组间统计量方差
$var(\bar{Y_t}) = \sum_k{\frac{w_k}{n} {\sigma}^2_k}+ \sum_k{\frac{w_k}{n} (\bar{Y_k} - \mu)^2}$
分层后，组间方差为0，仅剩组内方差。

法2 引入协变量:

通过引入协变量，增加额外的统计量信息，达到减小样本统计量方差的目的。
引入协变量，并使用
$\bar{Y_{cv}} = \bar{Y} - \theta \bar{X} + \theta E(\bar{X})$
来估计样本均值 $\bar{Y}$ 。
$var(\bar{Y_{cv}}) = var( \bar{Y} - \theta \bar{X}) = var( Y - \theta X)/n= var(Y) + {\theta}^2 var(X) - 2 \theta cov(Y, X)$
对 $\theta$ 求导，倒数为零时有最小值，此时：
$var(\bar{Y_{vc}}) = var(\bar{Y})(1-{\rho}^2)$
$\rho = cov(Y, X)$
即，引入的协变量与关心的指标Y的相关性越大，能减少的估计结果的方差就越大。

Iris__HU

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【论文阅读】Improving the Sensitivity of Online Controlled Experiments by Utilizing Pre-Experiment Data

中心思想通过降低样本统计量的方差，增加t检验的敏感度，在使用更少的数据量，更短的A/B test时间的情况下（双总体独立样本t检验），获取更显著的结果：t=Ytˉ−Ycˉ t = \frac{\bar{Y_t} - \bar{Y_c} }{\sqrt{}}t=Ytˉ−Ycˉ...
复制链接

扫一扫