阅读David Salazar的文章Causality: Invariance under Interventions后的笔记
主要内容
在前面的文章中我们已经对基本的因果关系有了认识,下一步是如何将图形表示与数据结合,以完成因果推断。主要内容简而言之,就是使用干涉前观测值的分布中的不变量去估计干涉带来的因果效应。
形式化定义
对于数据间的关联来说,例如 P ( Y ∣ X ) P(Y|X) P(Y∣X),可以是多种联系导致的相同结果。但我们可以说,任何统计学上有意义的关联关系都是因果关系通过某些作用路径导致的结果,但未必就是我们所希望的因果效应(causal effect)。
根据Pearl的定义,如果干涉 X X X(用外生(exogenous)手段改变 X X X的取值)能改变 Y Y Y的值,则 X X X对 Y Y Y有因果效应。表示为将 X X X进行赋值 X : = x X:=x X:=x,则有干涉后分布 P ( Y ∣ d o ( x ) ) P(Y|do(x)) P(Y∣do(x))。 d o do do操作符代表了外生的干涉行为。因此,研究 X X X对 Y Y Y的因果效应就是在系统外改变 X X X的取值,并观察系统内 Y Y Y的变化情况。
因果图与条件概率
接下来,问题就变成了:我们如何去模拟在因果系统中干涉带来的影响?
首先,我们先对因果图进行定义。用节点间的弧表示有直接因果效应,用节点间不存在弧表示不存在因果效应。如下图
G
G
G。
其次,将因果图与条件概率结合起来。假设图上的每个节点
x
x
x都条件依赖于其父节点
p
a
pa
pa,并且,
x
x
x独立于那些不把
x
x
x作为原因的结点(比如,
x
x
x的父节点
z
z
z独立于
x
x
x)。那么,因果图就有了与贝叶斯网络相同的联合分布递归分解特性,见式(1)。
P
(
x
1
,
…
,
x
n
)
=
∏
j
P
(
x
j
∣
p
a
j
)
(1)
P(x_1,\dots,x_n)=\prod_j P(x_j|pa_j) \tag{1}
P(x1,…,xn)=j∏P(xj∣paj)(1)
这种情况下,我们就能使用d-分割标准得到因果模型的可检验含义。
干涉:删去入边
干涉
d
o
(
X
)
do(X)
do(X)即为去除定义
X
X
X的机理,在图上表示为删除指向
X
X
X的弧(因此图中的性别无法影响到治疗)。如下图
G
m
G_m
Gm。
干涉中的不变概率
干涉后的因果图的概率分布可以表示为式(2)。
P
(
Y
=
y
∣
d
o
(
X
=
x
)
)
:
=
P
m
(
Y
=
y
∣
X
=
x
)
(2)
P(Y=y|do(X=x)):=P_m(Y=y|X=x) \tag{2}
P(Y=y∣do(X=x)):=Pm(Y=y∣X=x)(2)
两者间并非完全不同,可以从数据中得到共同之处。两者的分布有相同的不变量(invariant qualities):
- 干涉是原子的(atomic):对非 x x x后代的干涉不会有副作用,因此在例图中, P m ( Z = z ∣ X = x ) = P ( Z = z ) P_m(Z=z|X=x)=P(Z=z) Pm(Z=z∣X=x)=P(Z=z)
- Y Y Y的条件概率分布是不变的,因为不管 X X X和 Z Z Z怎么变,是否受到干涉,都不会影响 Y Y Y的条件概率分布,因此 P m ( Y = y ∣ X = x , Z = z ) = P ( Y = y ∣ X = x , Z = z ) P_m(Y=y|X=x,Z=z)=P(Y=y|X=x,Z=z) Pm(Y=y∣X=x,Z=z)=P(Y=y∣X=x,Z=z)。
因此,干涉后的概率可以表示为纯粹的观测数据计算得到的概率,见式(3)。
P
(
Y
=
y
∣
d
o
(
X
=
x
)
)
:
=
P
m
(
Y
=
y
∣
X
=
x
)
:
=
∑
z
P
m
(
Y
=
y
∣
X
=
x
,
Z
=
z
)
P
m
(
Z
=
z
)
:
=
∑
z
P
m
(
Y
=
y
∣
X
=
x
,
Z
=
z
)
P
m
(
Z
=
z
∣
X
=
x
)
:
=
∑
z
P
(
Y
=
y
∣
X
=
x
,
Z
=
z
)
P
(
Z
=
z
)
(3)
P(Y=y|do(X=x)):=P_m(Y=y|X=x) \\ :=\sum_z P_m(Y=y|X=x,Z=z)P_m(Z=z) \\ :=\sum_z P_m(Y=y|X=x,Z=z)P_m(Z=z|X=x) \\ :=\sum_z P(Y=y|X=x,Z=z)P(Z=z) \tag{3}
P(Y=y∣do(X=x)):=Pm(Y=y∣X=x):=z∑Pm(Y=y∣X=x,Z=z)Pm(Z=z):=z∑Pm(Y=y∣X=x,Z=z)Pm(Z=z∣X=x):=z∑P(Y=y∣X=x,Z=z)P(Z=z)(3)
设
X
X
X的父节点为
P
A
PA
PA,那么通用的调节方程就可以表示为式(4)。
P
(
Y
=
y
∣
d
o
(
X
=
x
)
)
:
=
∑
z
P
(
Y
=
y
∣
X
=
x
,
P
A
=
z
)
P
(
P
A
=
z
)
(4)
P(Y=y|do(X=x)):=\sum_z P(Y=y|X=x,PA=z)P(PA=z) \tag{4}
P(Y=y∣do(X=x)):=z∑P(Y=y∣X=x,PA=z)P(PA=z)(4)
此处也印证了因果分析的一般手法:控制混杂因子,即根据混杂因子的概率分布调整混杂因子的权重。
可识别性
因此,根据上面的分析,可以认为例图中的因果效应是可识别的(identifiable),只要给定了 X X X、 Y Y Y、 Z Z Z的观测数据,就能分析出因果关系。
例子
不再详述,有兴趣的读者可以移步原文。