CUPED
原理:CUPED(Controlled-experiment Using Pre-Experiment Data)
前提假设:
E
(
X
t
)
−
E
(
X
c
)
=
0
E( X ^ {t} ) - E( X ^ {c} ) = 0
E(Xt)−E(Xc)=0,即X不会被实验干扰
应用场景:方差缩减,小样本量实验。分层变量和连续变量都可以
无法使用场景:会影响用户结构的实验,如会拉活实验、影响用户启动的实验,因为用户结构改变后,他们的pre-experiment指标不再是无偏的。因为CUPED的核心假设是
E
(
X
t
)
−
E
(
X
c
)
=
0
E( X ^ {t} ) - E( X ^ {c} ) = 0
E(Xt)−E(Xc)=0,一旦用户结构发生变化这个假设自然不再成立
CUPED p-value计算:公式一样,方差变成缩减后的方差
方差分析
原理:总平方和=组间(处理间)平方和+组内平方和=SST+SSE,
M
S
处
理
=
S
S
处
理
/
(
a
−
1
)
;
M
S
E
=
S
S
E
/
(
N
−
a
)
MS_{处理}=SS_{处理}/(a-1);MS_{E}=SS_{E}/(N-a)
MS处理=SS处理/(a−1);MSE=SSE/(N−a),
E
(
M
S
处
理
)
=
σ
2
+
n
∗
∑
τ
i
2
/
(
a
−
1
)
;
E
(
M
S
E
)
=
σ
2
E(MS_{处理})=\sigma^2+n*\sum{\tau_i}^2/(a-1);E(MS_{E})=\sigma^2
E(MS处理)=σ2+n∗∑τi2/(a−1);E(MSE)=σ2,因此,
E
(
M
S
E
)
E(MS_{E})
E(MSE)是
σ
2
\sigma^2
σ2的无偏估计,如果原假设为真,则
E
(
M
S
处
理
)
E(MS_{处理})
E(MS处理)也是
σ
2
\sigma^2
σ2的无偏估计;如果原假设不真,则检验统计量F值的分子大于分母,这意味着是一个上尾部的单尾拒绝域。
前提假设:
- 方差的同质性(homogeneity of variance)。可以理解为每组样本背后的总体(也叫族群)都有相同的方差;
- 族群遵循正态分布(残差正态概率图),固定效应方差分析轻度偏离正态性,F检验只受轻微影响;
- 每一次抽样都是独立的。在我们的例子中,每一个病人只能提供一个数据。对于一些实验一个样本需要提供多个数据,有其他相应的ANOVA分析方法。
应用场景:检验若干个均值是否相等(单因子实验结果对比)
样本量计算: