动机
在前面的文章中,我们知道就算控制再多的变量,也不一定能准确估计。采用后门标准(backdoor-criterion)可以判断应该控制哪些变量。
观测数据下隐藏着干涉数据,因此我们需要使用调节方程式(1)去估计因果效应,但根据d-分割标准,不恰当的调节变量会存在两方面的问题:⑴错误的调节不该被调节的变量,导致无关的因果路径被打开;⑵变量在现实中无法被观测,因此无法接受调节。
P
(
Y
=
y
∣
d
o
(
X
=
x
)
)
:
=
∑
z
P
(
Y
=
y
∣
X
=
x
,
P
A
=
z
)
P
(
P
A
=
z
)
(1)
P(Y=y|do(X=x)):=\sum_z P(Y=y|X=x,PA=z)P(PA=z) \tag{1}
P(Y=y∣do(X=x)):=z∑P(Y=y∣X=x,PA=z)P(PA=z)(1)
实例
我们想知道
X
X
X对
Y
Y
Y的因果效应,并且
a
a
a无法观测,因果图如下图所示。(因果图的绘制、路径生成和后门标准使用R语言的dagitty和ggdag绘制)
从
X
X
X到
Y
Y
Y的路径有4条,如下图所示。但是真正的因果(即
X
X
X流向
Y
Y
Y的影响关系)只有下图的子图1所示。其他的都是受混杂因子影响的
X
X
X到
Y
Y
Y的伪成因。
使用后门标准,我们能找到合适的变量进行控制/调节,因此可调节的变量和调节后的因果关系如下图所示。后门标准解释一句,指的是调节流向
X
X
X的变量,以达到去混杂的目的。(这里需要读者熟悉d-分割的三种基本模式)
由于
a
a
a无法观测,选择上图的
{
b
,
z
}
\{b,z\}
{b,z}、
{
c
,
z
}
\{c,z\}
{c,z}、
{
d
,
z
}
\{d,z\}
{d,z}进行调节,就可以准确分析出
X
X
X对
Y
Y
Y的因果效应。