中心思想
通过降低样本统计量的方差,增加t检验的敏感度,在使用更少的数据量,更短的A/B test时间的情况下(双总体独立样本t检验),获取更显著的结果:
t
=
Y
t
ˉ
−
Y
c
ˉ
v
a
r
(
Y
t
ˉ
−
Y
c
ˉ
)
t = \frac{\bar{Y_t} - \bar{Y_c} }{\sqrt{var(\bar{Y_t} - \bar{Y_c})}}
t=var(Ytˉ−Ycˉ)Ytˉ−Ycˉ
若两个统计量真的存在差异,则当方差减少时,两个分布的重叠部分减小,一二类错误的概率减少,检验功效增加。
相关概念:第一类错误
α
\alpha
α,第二类错误
β
\beta
β,检验功效.
由于样本间相互独立,因此:
v
a
r
(
Y
t
ˉ
−
Y
c
ˉ
)
=
v
a
r
(
Y
t
ˉ
)
+
v
a
r
(
Y
c
ˉ
)
var(\bar{Y_t} - \bar{Y_c}) = var(\bar{Y_t}) + var(\bar{Y_c})
var(Ytˉ−Ycˉ)=var(Ytˉ)+var(Ycˉ)。即:降低样本统计量
Y
ˉ
\bar{Y}
Yˉ的方差即可。
法1:分组(分层)
样本统计量方差 = 组内统计量方差 + 组间统计量方差
v
a
r
(
Y
t
ˉ
)
=
∑
k
w
k
n
σ
k
2
+
∑
k
w
k
n
(
Y
k
ˉ
−
μ
)
2
var(\bar{Y_t}) = \sum_k{\frac{w_k}{n} {\sigma}^2_k}+ \sum_k{\frac{w_k}{n} (\bar{Y_k} - \mu)^2}
var(Ytˉ)=k∑nwkσk2+k∑nwk(Ykˉ−μ)2
分层后,组间方差为0,仅剩组内方差。
法2 引入协变量:
通过引入协变量,增加额外的统计量信息,达到减小样本统计量方差的目的。
引入协变量,并使用
Y
c
v
ˉ
=
Y
ˉ
−
θ
X
ˉ
+
θ
E
(
X
ˉ
)
\bar{Y_{cv}} = \bar{Y} - \theta \bar{X} + \theta E(\bar{X})
Ycvˉ=Yˉ−θXˉ+θE(Xˉ)
来估计样本均值
Y
ˉ
\bar{Y}
Yˉ。
v
a
r
(
Y
c
v
ˉ
)
=
v
a
r
(
Y
ˉ
−
θ
X
ˉ
)
=
v
a
r
(
Y
−
θ
X
)
/
n
=
v
a
r
(
Y
)
+
θ
2
v
a
r
(
X
)
−
2
θ
c
o
v
(
Y
,
X
)
var(\bar{Y_{cv}}) = var( \bar{Y} - \theta \bar{X}) = var( Y - \theta X)/n= var(Y) + {\theta}^2 var(X) - 2 \theta cov(Y, X)
var(Ycvˉ)=var(Yˉ−θXˉ)=var(Y−θX)/n=var(Y)+θ2var(X)−2θcov(Y,X)
对
θ
\theta
θ求导,倒数为零时有最小值,此时:
v
a
r
(
Y
v
c
ˉ
)
=
v
a
r
(
Y
ˉ
)
(
1
−
ρ
2
)
var(\bar{Y_{vc}}) = var(\bar{Y})(1-{\rho}^2)
var(Yvcˉ)=var(Yˉ)(1−ρ2)
ρ
=
c
o
v
(
Y
,
X
)
\rho = cov(Y, X)
ρ=cov(Y,X)
即,引入的协变量与关心的指标Y的相关性越大,能减少的估计结果的方差就越大。