因果图模型与d-分离

一、图模型

一般图都是由链结构(chain)、分叉结构(fork)、对撞结构(collider)这三种结构所组成,通过组合这三种结构,可以形成复杂图模型。

下面分别介绍这三种结构,以及对应的Rule.

1、链结构(Chain)

下图就是一个基本的链结构,在这个结构中X是Y的原因,Y是Z的原因。假设图中的误差项都是独立的(图中没画出误差项),可以认为X与Y,Y与Z,X与Z很可能是依赖的,注意是可能而不是一定。从直觉上来说,X是Y的原因,Y是Z的原因,那么X与Y,Y与Z一般是具有相关性的,同意,因为Y是Z的原因,那么很直觉的可以认为X也Z的原因,即X与Z也很可能是相关的。

当condition在Y上时,X与Z也可以是独立的。举个例子:

X = U_{x} \\ Y=80-x+U_{y} \\ Z = 100Y + U_{z}

当condition在Y上时,Y不变,无论X值为多少, Z都不会受到X值改变的影响,即Z与X是独立的。

由上述所述,可以得到一个关于链结构的条件独立性的Rule。

Rule 1:如果变量X与Y之间只有一条单向路径,Z是截断这条路径的任何一组变量,则在Z的条件下,X与Y是独立的。(假设误差项都相互独立时才成立)

注意:上面的Z表示一组变量,即可以有很多个,比如下图:

在上图中Z就是{Y1,Y2,Y3}。

2、分叉结构(fork)

分叉结构如下图所示(误差项Ux,Uy,Uz是相互独立):

由上图可得

  1. X与Y可能是相互依赖的
  2. X与Z可能是相互依赖的
  3. Y与Z可能是相互依赖的
  4. Y与Z在X的条件下是独立的。

第1,2点都很好理解,因果它们之间有直接的边相连,所以肯定是相关的。如何理解第三点呢,因为X是Y与Z共同的原因,那么当X发生变化的时候,Y与Z可能一起发生变化也或者一起不变。总之,当我们观察到Y发生变化时,那么Z 也必然会发生某种变化,所以Y与Z可能是相关的。

对于第四点,为什么在X的条件下,Y与Z是独立的呢?假设我们固定了X值,那么Y与Z的值就不会随X的变化而变化,只会随着其对应的误差项的变化而变化,而Uy与Uz是相互独立的,所以Y与Z也是相互独立的。

由上述可得关于分叉结构(fork)的Rule:

Rule 2:如果变量X是变量Y与变量Z的共同原因,并且Y和Z之间只有一条路径,则Y和Z在X的条件下独立。(假设误差项都相互独立时才成立)

3、对撞结构(Collider)

对撞结构图示如下:

由上图可得

  1. X与Y可能是相互依赖的
  2. X与Z可能是相互依赖的
  3. Y与Z是相互独立的
  4. Y与Z在X的条件下是相互依赖的。

第1、2点都很好理解,因为它们之间有边相连接。对于第三点,从直觉上也很好理解,Y与Z都是X的原因,但是Y与Z之间并没有什么关系,没有依赖于同一个变量,它们只是分别受Uy,Uz的影响,而Uy,Uz是相互独立的,所以Y与Z是相互独立的。

对于第四点,如何理解呢?因为X的值依赖于Z与Y,那么当我们固定了X的值的时候,当Z或者Y中任意一个发生变化时,另外一个变量都应该发生相应的变化,去抵消另一个变量变化所带来的改变。所以Y与Z在X的条件下是相互依赖的。举个例子:

当X=Z+Y 时,且Z与Y是独立的变量,当我们知道X的值的时候,我们并不知道有关Z与Y的信息,但是若告诉你X=10,Z=3,那么我们就可以确定Y=7,所以说,当确定了X的值的时候,Z与Y的取值是相互依赖的。

由上述可得关于对撞结构的Rule.

Rule 3:如果变量Z是变量X与Y之间的对撞节点,并且X与Y之间只有一条路径,那么X与Y是无条件独立的,但是在Z或Z的任何子孙条件下是相互依赖的。(假设误差项都相互独立时才成立)

 

二、d-分离

d-分离的定义为:如果一条路径被一组节点Z阻断,当且仅当:

1.路径p包含链结构A->B->C,或分叉结构A<-B->C,且中间节点B在Z中(即以B为条件);或者

2.路径p包含一个对撞结构A->B<-C,且对撞节点B及其子孙节点不在Z中。(以对撞节点为条件时,会解除阻断)

如果Z阻断了X和Y之间的每一条路径,则X和Y在Z的条件下是d-分离的。(即X与Y是以Z为条件独立的)

上述定义中所述的路径是无方向的,即不考虑边的方向性,只要两个变量之间是可达的,就算是路径。

在上图中,可以看出Z与Y是无条件独立的,因为它们之间只有一条路径即,Z->W<-X->Y,并且该路径被一个对撞结构(Z->W<-X)阻挡,所以它们之间没有一条未被阻挡的路径,所以是d-分离的。

当我们以W为条件时,结果就改变了,Z与Y就变为相互依赖的了,因为对撞节点W在条件集中,而分叉节点X并不在条件集中,所以Z与Y之间的路径就未被阻挡,所以Z与Y是d-连通,即相互依赖的。

当把X加进来后,Z与Y又变成相互独立了,因为分叉节点X把路径又阻断了。

结束语:以上就是最近看完《Causal inference in Statistics:A primer》第二章的一个小结,总结的不好请见谅。

参考资料:

《Causal inference in Statistics:A primer》

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值