为什么要前门标准
在前面的文章中,我们知道,后门标准的作用是隔绝了我们不感兴趣的因果关系,只留下感兴趣的因果路径。但后门标准干涉的变量不一定是可观测的,比如混杂因子(见下图中红色混杂因子Genotype,另外,图中变量
M
M
M就是下面讲的符合前门标准的变量)。这种情况下,可以使用前门标准(front-door criterion)进行估计。
前门标准应用
前门标准应用前提是使用前门标准找到能干涉的可观测变量,当变量 M M M满足如下条件,则是符合前门标准的变量(这也是前门标准的应用场景):
- M M M截断了从 X X X到 Y Y Y的所有正向路径
- 没有从 X X X到 M M M的后门路径(也就是没有变量 Z Z Z同时是 X X X和 M M M的祖先)
- 所有从 M M M到 Y Y Y的后门路径都被 X X X截断了
用吸烟
X
X
X对癌症
Y
Y
Y的影响举个例子,仍然看上图。当加入了观测变量
M
M
M(肺部焦油量),可以在无法控制基因
U
U
U的情况下估计吸烟对癌症的影响。前门标准就是把
X
→
Y
X\rightarrow Y
X→Y的作用估计独立为
X
→
M
X\rightarrow M
X→M和
M
→
Y
M\rightarrow Y
M→Y两部分,随后合并得到最终结果。影响可以写为式(1)。
P
(
Y
∣
d
o
(
X
)
)
=
∑
M
P
(
Y
∣
M
,
d
o
(
X
)
)
×
P
(
M
∣
d
o
(
X
)
)
(1)
P(Y|do(X))=\sum_M P(Y|M,do(X))\times P(M|do(X)) \tag{1}
P(Y∣do(X))=M∑P(Y∣M,do(X))×P(M∣do(X))(1)
对子式左半边进行解析。
P
(
Y
∣
M
,
d
o
(
X
)
)
P(Y|M,do(X))
P(Y∣M,do(X))中,
M
M
M只受到
X
X
X影响,因此无论对
M
M
M取任何值
Y
Y
Y的取值分布是不变的。所以,
P
(
Y
∣
M
,
d
o
(
X
)
)
=
P
(
Y
∣
d
o
(
M
)
,
d
o
(
X
)
)
P(Y|M,do(X))=P(Y|do(M),do(X))
P(Y∣M,do(X))=P(Y∣do(M),do(X))。又由干涉定义,
P
(
Y
∣
d
o
(
M
)
,
d
o
(
X
)
)
=
P
(
Y
∣
d
o
(
M
)
)
P(Y|do(M),do(X))=P(Y|do(M))
P(Y∣do(M),do(X))=P(Y∣do(M)),最终可写作式(2)。
P
(
Y
∣
M
,
d
o
(
X
)
)
=
P
(
Y
∣
d
o
(
M
)
,
d
o
(
X
)
)
=
P
(
Y
∣
d
o
(
M
)
)
(2)
P(Y|M,do(X))=P(Y|do(M),do(X))=P(Y|do(M)) \tag{2}
P(Y∣M,do(X))=P(Y∣do(M),do(X))=P(Y∣do(M))(2)
回到干涉的本质(文章式(4)):对干涉变量的条件变量(父变量)作随机化处理。因此,
P
(
Y
∣
d
o
(
M
)
)
P(Y|do(M))
P(Y∣do(M))可以写作式(3)。
P
(
Y
∣
d
o
(
M
)
)
=
∑
M
P
(
Y
∣
X
,
M
)
×
P
(
X
)
(3)
P(Y|do(M))=\sum_M P(Y|X,M)\times P(X) \tag{3}
P(Y∣do(M))=M∑P(Y∣X,M)×P(X)(3)
接下来对子式右半边进行解析。
P
(
M
∣
d
o
(
X
)
)
P(M|do(X))
P(M∣do(X))是没有混杂干扰的,因为对撞关系
Y
Y
Y将间接的因果路径阻断了。因此
P
(
M
∣
d
o
(
X
)
)
P(M|do(X))
P(M∣do(X))可写作式(4)。
P
(
M
∣
d
o
(
X
)
)
=
P
(
M
∣
X
)
(4)
P(M|do(X))=P(M|X) \tag{4}
P(M∣do(X))=P(M∣X)(4)
最终,我们得到了前门公式(5)。
P
(
Y
∣
d
o
(
X
)
)
=
∑
M
P
(
M
∣
X
)
∑
X
′
P
(
Y
∣
M
,
X
′
)
×
P
(
X
′
)
)
(5)
P(Y|do(X))=\sum_M P(M|X)\sum_{X^{'}}P(Y|M,X^{'})\times P(X^{'})) \tag{5}
P(Y∣do(X))=M∑P(M∣X)X′∑P(Y∣M,X′)×P(X′))(5)
经验估计
在回归模型中,我们可以通过前门标准使用平均处理效果(Average Treatment Effect,ATE)来估计因果效应。对应式(1)的两部分,可以写为两个方程(6)和(7)。
Y
i
=
λ
+
δ
M
i
+
ϕ
X
i
+
v
i
(6)
Y_i=\lambda +\delta M_i+\phi X_i+v_i \tag{6}
Yi=λ+δMi+ϕXi+vi(6)
M
i
=
κ
+
γ
X
i
+
w
i
(7)
M_i=\kappa +\gamma X_i+w_i \tag{7}
Mi=κ+γXi+wi(7)
则平均处理效果的估计为式(8)。
A
T
E
=
E
[
Y
∣
d
o
(
X
)
]
=
δ
×
γ
(8)
ATE=E[Y|do(X)]=\delta\times\gamma \tag{8}
ATE=E[Y∣do(X)]=δ×γ(8)
例子
不再详述,有兴趣的读者可以移步原文。