ID algorithm: 一种快速给出计算任意干预分布p(Y|do(X))的算法

介绍

在这里我会介绍一种快速地计算干预后分布的通用识别算法。举个例子,相信大家都知道back-door准则,设有因果关系 X ← Z → Y {\displaystyle X\leftarrow Z\rightarrow Y} XZY X → Y {\displaystyle X\rightarrow Y} XY,于是

p ( d o ( x ) , y , z ) = p ( z ) p ( d o ( x ) ∣ z ) ⏟ = 1 p ( y ∣ z , d o ( x ) ) ⟹ ∑ z p ( d o ( x ) , y , z ) = ∑ z p ( z ) p ( y ∣ z , d o ( x ) ) ⟹ p ( y ∣ d o ( x ) ) p ( d o ( x ) ) ⏟ = 1 = ∑ z p ( z ) p ( y ∣ z , d o ( x ) ) ⟹ p ( y ∣ d o ( x ) ) = ∑ z p ( z ) p ( y ∣ z , x ) \begin{array}{ c c l } & p(do(x),y,z) & =p(z)\underbrace{p(do(x)|z)}_{=1} p(y|z,do(x))\\ \Longrightarrow & \sum _{z} p(do(x),y,z) & =\sum _{z} p(z)p(y|z,do(x))\\ \Longrightarrow & p(y|do(x))\underbrace{p(do(x))}_{=1} & =\sum _{z} p(z)p(y|z,do(x))\\ \Longrightarrow & p(y|do(x)) & =\sum _{z} p(z)p(y|z,x) \end{array} p(do(x),y,z)zp(do(x),y,z)p(ydo(x))=1 p(do(x))p(ydo(x))=p(z)=1 p(do(x)z)p(yz,do(x))=zp(z)p(yz,do(x))=zp(z)p(yz,do(x))=zp(z)p(yz,x)

于是我们发现干预后分布 p ( y ∣ d o ( x ) ) \displaystyle p(y|do(x)) p(ydo(x))可以用观测数据 ∑ z p ( z ) p ( y ∣ z , x ) \displaystyle \sum _{z} p(z)p(y|z,x) zp(z)p(yz,x)来计算。这就是back-door公式了,它允许我们从纯粹的观察数据中得到干预后的分布。然而这个计算是依赖于给定的因果结构图的,而不同的结构会有不同的结果,甚至若是存在隐变量,比如图中的Z不可观测的话,那么分布 P ( y ∣ d o ( x ) ) \displaystyle P( y|do( x)) P(ydo(x))就是不可识别的。

那么有没有一种通用的,快速的识别以及计算方法呢?本文介绍一种快速识别的算法。

ID algorithm在2003年被提出用来解决这个问题的,但这个算法不太好懂,本文的思路基于2017年的文章,并基于fixing操作来求解这一问题。接下来我们都是假设因果图是已知的。

fixing and Marginalization操作

这里先介绍一种fixing操作,首先有这样的图

在这里插入图片描述

所谓fixing就是把该变量的入度边干掉,其实就是一种干预操作,比如下图就是将 A 1 , A 0 \displaystyle A_{1} ,A_{0} A1,A0 fix掉:

在这里插入图片描述

这样fix的操作其实本质上就是做了一个分布的变换:
p ( d o ( A 0 ) , L 1 , d o ( A 1 ) , Y ) = p ( A 0 , L 1 , A 1 , Y ) p ( A 0 ) p ( A 1 ∣ L 1 , A 0 ) p( do( A_{0}) ,L_{1} ,do( A_{1}) ,Y) =\frac{p( A_{0} ,L_{1} ,A_{1} ,Y)}{p( A_{0}) p( A_{1} |L_{1} ,A_{0})} p(do(A0),L1,do(A1),Y)=p(A0)p(A1L1,A0)p(A0,L1,A1,Y)
这是因为 p ( d o ( A 0 ) ) = 1 , p ( d o ( A 1 ) ∣ L 1 , A 0 ) = 1 \displaystyle p( do( A_{0})) =1,p( do( A_{1}) |L_{1} ,A_{0}) =1 p(do(A0))=1,p(do(A1)L1,A0)=1,除以这两个分布就相当于令他们等于1了,做了一个转换。

Districts and Fixing

更一般的情况是,给定一个因果网络,以及变量 v = { v 1 , . . . , v n } {\displaystyle v=\{v_{1} ,...,v_{n} \}} v={v1,...,vn},假设没有隐变量,对于分布 p ( v ) {\displaystyle p(v)} p(v),可以进行概率分解:

P ( v ) = ∏ i P ( v i ∣ p a i ) P(v)=\prod _{i} P(v_{i} |pa_{i} ) P(v)=iP(vipai)

那如果我们对其中某个 v j \displaystyle v_{j} vj进行干预,则意味着 p ( d o ( v j ) ∣ P a j ) = 1 \displaystyle p( do( v_{j}) |Pa_{j}) =1 p(do(vj)Paj)=1,于是,干预后的分布为
P ∗ ( v ) = ∏ i ∈ { 1 , . . , j − 1 , j + 1 , . . . , n } P ( v i ∣ p a i ) = P ( v ) P ( v j ∣ p a j ) (1) P^{*} (v)=\prod _{i\in \{1,..,j-1,j+1,...,n\}} P(v_{i} |pa_{i} )=\frac{P(v)}{P(v_{j} |pa_{j} )} \tag{1} P(v)=i{1,..,j1,j+1,...,n}P(vipai)=P(vjpaj)P(v)(1)

你会发现,一个干预后的分布其实就是简单地将 p ( v ) \displaystyle p( v) p(v)除以对应的干预的分布。但你可能会意识到,如果有隐变量,那么事情就没那么简单了,看下图

在这里插入图片描述

可以发现,每个district都是可计算的,我们总能够根据district对全概率进行分解,使得

P ( x 1 , x 2 , x 3 , x 4 , x 5 ) = p ( x 1 , x 2 ) p ( x 3 , x 4 ∣ x 1 , x 2 ) p ( x 5 ∣ x 1 , x 2 , x 3 , x 4 ) = p ( x 1 , x 2 ) p ( x 3 , x 4 ∣ x 1 , x 2 ) p ( x 5 ∣ x 3 ) \begin{aligned} P( x_{1} ,x_{2} ,x_{3} ,x_{4} ,x_{5}) & =p( x_{1} ,x_{2}) p( x_{3} ,x_{4} |x_{1} ,x_{2}) p( x_{5} |x_{1} ,x_{2} ,x_{3} ,x_{4})\\ & =p( x_{1} ,x_{2}) p( x_{3} ,x_{4} |x_{1} ,x_{2}) p( x_{5} |x_{3}) \end{aligned} P(x1,x2,x3,x4,x5)=p(x1,x2)p(x3,x4x1,x2)p(x5x1,x2,x3,x4)=p(x1,x2)p(x3,x4x1,x2)p(x5x3)

从而得到每一个district的概率分布。由此,我们可以推断,对于每一个district分布,如 q ( x 3 , x 4 ∣ x 1 , x 2 ) \displaystyle q( x_{3} ,x_{4} |x_{1} ,x_{2}) q(x3,x4x1,x2)都相当于 q ( x 3 , x 4 ∣ d o ( x 1 , x 2 ) ) \displaystyle q( x_{3} ,x_{4} |do( x_{1} ,x_{2})) q(x3,x4do(x1,x2)),可以想象这个q可以将其余所有的q fix掉来得到的,从而只剩下 x 3 , x 4 \displaystyle x_{3} ,x_{4} x3,x4没有被fix.

然而,在有隐变量的时候,district内部的变量的fix要怎么计算是一个问题。因为district内部需要对隐变量u,v求和,无法简单的看做一个个 P ( v i ∣ p a i ) \displaystyle P(v_{i} |pa_{i} ) P(vipai)。为此,我们需要推广fixing为:

ϕ r ( q ( V ∣ W ) ; G ) ≡ q ( V ∣ W ) q ( r ∣ m b G ( r ) ) \phi _{r}( q( V|W) ;G) \equiv \frac{q( V|W)}{q( r|mb_{G}( r))} ϕr(q(VW);G)q(rmbG(r))q(VW)

其中

m b G ( r ) = { y ≠ r ∣ ( r ← y )   o r   ( r ↔ . . . ↔ y )   o r   ( r   ↔ . . . ↔ ∘ ← y ) } mb_{G}( r) =\left\{y\neq r|\left( r\leftarrow y\right) \ or\ ( r\leftrightarrow ...\leftrightarrow y) \ or\ \left( r\ \leftrightarrow ...\leftrightarrow \circ \leftarrow y\right)\right\} mbG(r)={y=r(ry) or (r...y) or (r ...y)}

表示所有r的直接父母,以及所有与r以双向边连接的结点,以及双向边连接的结点的父母。这里用 q \displaystyle q q来表示每个district的分布,而且这样的操作就相当于对r做了fixing操作后所得到的分布, ϕ r \displaystyle \phi _{r} ϕr表示了对r进行fix的操作。

然而,不是每一个结点都可以被fix的,为保证其可算,必须满足以下规则:

对于结点v,如果存在v的子代和v属于同一个district,则v是不可fix

这也是不叫干预而叫fixing的原因,是为了加以区分。

举个例子,在下图中

在这里插入图片描述

因为 L 1 , Y \displaystyle L_{1} ,Y L1,Y就形成一个district,所以 L 1 \displaystyle L_{1} L1是不可fix的,因为 Y \displaystyle Y Y L 1 \displaystyle L_{1} L1的子代,而且他们属于同一个district,另一方面 A 0 , A 1 , Y \displaystyle A_{0} ,A_{1} ,Y A0,A1,Y则是可fix的,因为它们要么没有双向边,要么没有子代。

Marginalization

那么既然我们fixing意味着一种可计算的分布转换,那么直观上,我就可以不停的fix,将分布转为我们的目标分布。比如我们目标是 P ( Y ∣ d o ( A 0 , A 1 ) ) \displaystyle P( Y|do( A_{0} ,A_{1})) P(Ydo(A0,A1)),于是就想办法将图变成下图的形状。

在这里插入图片描述

然而你会发现仅仅使用fixing还不能得到这个图,因为fixing不能够将结点从图中“删去”,而Marginalization则定义了这种删除的操作,并且类似的,在满足它的要求下, Marginalization是可算的!具体要求如下:

对于考虑 W ⊆ C \displaystyle W\subseteq C WC,W是C的某个子集,只要W是图 G ( C ) \displaystyle G( C) G(C)上的ancestral set,也就是 W = a n ( W ) G ( C ) \displaystyle W=an( W)_{G( C)} W=an(W)G(C)(意味着W集合中包含了所有W中的祖先),那么W就可以保留,然后其余的变量都可以被Marginalization:

Q [ W ] = ∑ c \ w Q [ C ]     I f   W   i s   a n c e s t r a l   i n   G ( C ) Q[\mathbf{W} ]=\sum _{\mathbf{c} \backslash \mathbf{w}} Q[\mathbf{C} ]\ \ \ If\ W\ is\ ancestral\ in\ G(\mathbf{C} ) Q[W]=c\wQ[C]   If W is ancestral in G(C)

直观来看,一些根结点是可以保留的,它的那些子代可以被积分掉。有了这个,我们就能发现

在这里插入图片描述

这个图中的 L 1 \displaystyle L_{1} L1就可以被积分掉,因为 { A 0 , A 1 , Y } \displaystyle \{A_{0} ,A_{1} ,Y\} {A0,A1,Y}就构成了一个ancestral set(集合里的所有祖先都在这个集合里). 积分掉之后我们就可以得到这个目标分布了:

在这里插入图片描述

Identifying causal effect via Fixing and Marginalization

我们就以这个作为例子,来讲解下这个算法:

在这里插入图片描述

首先,我们目标是 p ( Y ∣ d o ( A 0 , A 1 ) ) \displaystyle p( Y|do( A_{0} ,A_{1})) p(Ydo(A0,A1)),那第一步先按照district进行概率展开:

p ( A 0 , L 1 , A 1 , Y ) = ∑ u P ( Y ∣ A 1 , u , A 0 ) P ( L 1 ∣ A 0 , u ) P ( A 1 ∣ L 1 , A 0 ) P ( A 0 ) = q ( Y , L 1 ∣ A 0 , A 1 ) q ( A 1 ∣ L 1 , A 0 ) q ( A 0 ) = p ( Y ∣ L 1 , A 0 , A 1 ) P ( L 1 ∣ A 0 ) P ( A 1 ∣ L 1 , A 0 ) P ( A 0 ) \begin{aligned} p( A_{0} ,L_{1} ,A_{1} ,Y) & =\sum _{u} P( Y|A_{1} ,u,A_{0}) P( L_{1} |A_{0} ,u) P( A_{1} |L_{1} ,A_{0}) P( A_{0})\\ & =q( Y,L_{1} |A_{0} ,A_{1}) q( A_{1} |L_{1} ,A_{0}) q( A_{0})\\ & =p( Y|L_{1} ,A_{0} ,A_{1}) P( L_{1} |A_{0}) P( A_{1} |L_{1} ,A_{0}) P( A_{0}) \end{aligned} p(A0,L1,A1,Y)=uP(YA1,u,A0)P(L1A0,u)P(A1L1,A0)P(A0)=q(Y,L1A0,A1)q(A1L1,A0)q(A0)=p(YL1,A0,A1)P(L1A0)P(A1L1,A0)P(A0)

接下来,我们先对 A 0 , A 1 \displaystyle A_{0} ,A_{1} A0,A1 fix,得到

ϕ A 0 ∘ ϕ A 1 ( p ( A 0 , L 1 , A 1 , Y ) , G ) = p ( A 0 , L 1 , A 1 , Y ) P ( A 1 ∣ L 1 , A 0 ) P ( A 0 ) = q ( Y , L 1 ∣ A 0 , A 1 ) \begin{aligned} \phi _{A_{0}} \circ \phi _{A_{1}}( p( A_{0} ,L_{1} ,A_{1} ,Y) ,G) & =\frac{p( A_{0} ,L_{1} ,A_{1} ,Y)}{P( A_{1} |L_{1} ,A_{0}) P( A_{0})}\\ & =q( Y,L_{1} |A_{0} ,A_{1}) \end{aligned} ϕA0ϕA1(p(A0,L1,A1,Y),G)=P(A1L1,A0)P(A0)p(A0,L1,A1,Y)=q(Y,L1A0,A1)

于是, q ( Y , L 1 ∣ A 0 , A 1 ) \displaystyle q( Y,L_{1} |A_{0} ,A_{1}) q(Y,L1A0,A1)将对应着以下图:

在这里插入图片描述

接下来,我们对 L 1 \displaystyle L_{1} L1作Marginalization:

∑ L 1 q ( Y , L 1 ∣ A 0 , A 1 ) = q ( Y ∣ A 0 , A 1 ) \sum _{L_{1}} q( Y,L_{1} |A_{0} ,A_{1}) =q( Y|A_{0} ,A_{1}) L1q(Y,L1A0,A1)=q(YA0,A1)

联立上述结果,我们有

p ( Y ∣ d o ( A 0 , A 1 ) ) = q ( Y ∣ A 0 , A 1 ) = ∑ L 1 q ( Y , L 1 ∣ A 0 , A 1 ) = ∑ L 1 p ( A 0 , L 1 , A 1 , Y ) P ( A 1 ∣ L 1 , A 0 ) P ( A 0 ) p( Y|do( A_{0} ,A_{1})) =q( Y|A_{0} ,A_{1}) =\sum _{L_{1}} q( Y,L_{1} |A_{0} ,A_{1}) =\sum _{L_{1}}\frac{p( A_{0} ,L_{1} ,A_{1} ,Y)}{P( A_{1} |L_{1} ,A_{0}) P( A_{0})} p(Ydo(A0,A1))=q(YA0,A1)=L1q(Y,L1A0,A1)=L1P(A1L1,A0)P(A0)p(A0,L1,A1,Y)

Example 2

再看一个例子

在这里插入图片描述

在这里我们是要求 P ( Y ∣ d o ( X ) ) \displaystyle P( Y|do( X)) P(Ydo(X)),我们先分解一下概率:

P ( X , Y , R , W ) = q ( R ∣ W ) q ( X , Y , W ∣ R ) = P ( R ∣ W ) P ( X , Y ∣ W , R ) P ( W ) \begin{aligned} P( X,Y,R,W) & =q( R|W) q( X,Y,W|R)\\ & =P( R|W) P( X,Y|W,R) P( W) \end{aligned} P(X,Y,R,W)=q(RW)q(X,Y,WR)=P(RW)P(X,YW,R)P(W)

接下来我们的目标是 q ( Y ∣ X ) \displaystyle q( Y|X) q(YX),也就是

在这里插入图片描述

要实现这一点,我们第一步是fix R,使得

在这里插入图片描述

对应的分布为

ϕ R ( P ( X , Y , R , W ) , G ) = P ( X , Y , R , W ) P ( R ∣ W ) = q ( X , Y , W ∣ R ) = P ( X , Y ∣ W , R ) P ( W ) \phi _{R}( P( X,Y,R,W) ,G) =\frac{P( X,Y,R,W)}{P( R|W)} =q( X,Y,W|R) =P( X,Y|W,R) P( W) ϕR(P(X,Y,R,W),G)=P(RW)P(X,Y,R,W)=q(X,Y,WR)=P(X,YW,R)P(W)

接下来,由于W不是X和Y的子代或者祖先,而X,Y则形成一个祖先集合,因此W可以被积分掉,于是

∑ W q ( X , Y , W ∣ R ) = q ( X , Y ∣ R ) = ∑ W P ( X , Y ∣ W , R ) P ( W ) \sum _{W} q( X,Y,W|R) =q( X,Y|R) =\sum _{W} P( X,Y|W,R) P( W) Wq(X,Y,WR)=q(X,YR)=WP(X,YW,R)P(W)

在这里插入图片描述

最后我们可以fix x

ϕ X ( q ( X , Y ∣ R ) , G ( { X , Y } ) ) = q ( X , Y ∣ R ) q ( X ∣ R ) = q ( X , Y ∣ R ) ∑ Y q ( X , Y ∣ R ) = ∑ W P ( X , Y ∣ W , R ) P ( W ) ∑ Y ∑ W P ( X , Y ∣ W , R ) P ( W ) \phi _{X}( q( X,Y|R) ,G(\{X,Y\})) =\frac{q( X,Y|R)}{q( X|R)} =\frac{q( X,Y|R)}{\sum _{Y} q( X,Y|R)} =\frac{\sum _{W} P( X,Y|W,R) P( W)}{\sum _{Y}\sum _{W} P( X,Y|W,R) P( W)} ϕX(q(X,YR),G({X,Y}))=q(XR)q(X,YR)=Yq(X,YR)q(X,YR)=YWP(X,YW,R)P(W)WP(X,YW,R)P(W)

这就是我们的目标分布了,即

P ( Y ∣ d o ( X ) ) = ∑ W P ( X , Y ∣ W , R ) P ( W ) ∑ Y ∑ W P ( X , Y ∣ W , R ) P ( W ) P( Y|do( X)) =\frac{\sum _{W} P( X,Y|W,R) P( W)}{\sum _{Y}\sum _{W} P( X,Y|W,R) P( W)} P(Ydo(X))=YWP(X,YW,R)P(W)WP(X,YW,R)P(W)

Example 3: front door

这是个更复杂的例子

在这里插入图片描述

上图对应的是典型的front door graph,他的概率分解如下:

P ( X , M , Y ) = P ( M ∣ X ) ⏟ D 1 ∑ U p ( X ∣ U ) P ( Y ∣ M , U ) P ( U ) ⏟ D 2 = q ( M ∣ X ) q ( X , Y ∣ M ) = P ( M ∣ X ) P ( Y ∣ M , X ) P ( X ) \begin{aligned} P( X,M,Y) & =\underbrace{P( M|X)}_{D_{1}}\underbrace{\sum _{U} p( X|U) P( Y|M,U) P( U)}_{D_{2}}\\ & =q( M|X) q( X,Y|M)\\ & =P( M|X) P( Y|M,X) P( X) \end{aligned} P(X,M,Y)=D1 P(MX)D2 Up(XU)P(YM,U)P(U)=q(MX)q(X,YM)=P(MX)P(YM,X)P(X)

我们的目标是找到 P ( Y ∣ d o ( X ) ) \displaystyle P( Y|do( X)) P(Ydo(X))的分布,可以发现,X,Y在这个图中不是直接相连,这一类分体可以将其分解为若干个干预分布的乘积:

p ( Y ∣ d o ( X ) ) = ∑ m P ( M , Y ∣ d o ( X ) ) = ∑ m P ( M ∣ d o ( X ) ) P ( Y ∣ M ) \begin{aligned} p( Y|do( X)) & =\sum _{m} P( M,Y|do( X))\\ & =\sum _{m} P( M|do( X)) P( Y|M) \end{aligned} p(Ydo(X))=mP(M,Ydo(X))=mP(Mdo(X))P(YM)

可以发现,要求解这一个分布,我们需要识别出 P ( M ∣ d o ( X ) ) \displaystyle P( M|do( X)) P(Mdo(X)),因为x在这里是不可fix的,所以我们需要先fix M再fix x,于是:

P ( Y ∣ d o ( M ) ) = ϕ X ∘ ϕ M ( P ( X , M , Y ) ; G ) = P ( X , M , Y ) q ( M ∣ X ) q ( X ∣ Y , M ) P( Y|do( M)) =\phi _{X} \circ \phi _{M}( P( X,M,Y) ;G) =\frac{P( X,M,Y)}{q( M|X) q( X|Y,M)} P(Ydo(M))=ϕXϕM(P(X,M,Y);G)=q(MX)q(XY,M)P(X,M,Y)

显然, q ( M ∣ X ) = P ( M ∣ X ) \displaystyle q( M|X) =P( M|X) q(MX)=P(MX),而

q ( X ∣ Y , M ) = q ( X , Y ∣ M ) q ( Y ∣ M ) = q ( X , Y ∣ M ) ∑ x q ( X , Y ∣ M ) = P ( Y ∣ M , X ) P ( X ) ∑ x P ( Y ∣ M , X ) P ( X ) q( X|Y,M) =\frac{q( X,Y|M)}{q( Y|M)} =\frac{q( X,Y|M)}{\sum _{x} q( X,Y|M)} =\frac{P( Y|M,X) P( X)}{\sum _{x} P( Y|M,X) P( X)} q(XY,M)=q(YM)q(X,YM)=xq(X,YM)q(X,YM)=xP(YM,X)P(X)P(YM,X)P(X)

于是,

P ( Y ∣ d o ( M ) ) = P ( X , M , Y ) q ( M ∣ X ) q ( X ∣ Y , M ) = q ( X , Y ∣ M ) q ( X ∣ Y , M ) = ∑ x q ( X , Y ∣ M ) = ∑ x P ( Y ∣ M , X ) P ( X ) P( Y|do( M)) =\frac{P( X,M,Y)}{q( M|X) q( X|Y,M)} =\frac{q( X,Y|M)}{q( X|Y,M)} =\sum _{x} q( X,Y|M) =\sum _{x} P( Y|M,X) P( X) P(Ydo(M))=q(MX)q(XY,M)P(X,M,Y)=q(XY,M)q(X,YM)=xq(X,YM)=xP(YM,X)P(X)

p ( Y ∣ d o ( X ) ) = ∑ m P ( M ∣ d o ( X ) ) P ( Y ∣ M ) = ∑ m P ( Y ∣ M ) ∑ x P ( Y ∣ M , X ) P ( X ) \begin{aligned} p( Y|do( X)) & =\sum _{m} P( M|do( X)) P( Y|M)\\ & =\sum _{m} P( Y|M)\sum _{x} P( Y|M,X) P( X) \end{aligned} p(Ydo(X))=mP(Mdo(X))P(YM)=mP(YM)xP(YM,X)P(X)

Finding Verma constraint via fixing

最后fixing这个工具还可以导出一种叫verma constraint的东西,看下图:

在这里插入图片描述

这个结构有个神奇的规律 ∑ b p ( b ∣ a ) ⋅ p ( d ∣ a , b , c ) \displaystyle \sum _{b} p( b|a) \cdot p( d|a,b,c) bp(ba)p(da,b,c)是一个跟a无关的函数!很神奇,因为里面有a的,但却与a无关,为什么会出现这样的事情?我们可以用fixing的方法来分析下这个图。

首先找district:

p ( a , b , c , d ) = ∑ u p ( u ) ⋅ p ( a ) ⋅ p ( b ∣ a , u ) ⋅ p ( c ∣ b ) ⋅ p ( d ∣ c , u ) = p ( a ) ⋅ p ( c ∣ b ) ⋅ ∑ u p ( u ) ⋅ p ( b ∣ a , u ) ⋅ p ( d ∣ c , u ) ≡ q ( a ) ⋅ q ( c ∣ b ) ⋅ q ( b , d ∣ a , c ) = p ( a ) ⋅ p ( b ∣ a ) ⋅ p ( c ∣ b , a ) ⋅ p ( d ∣ a , b , c ) = p ( a ) ⋅ p ( c ∣ b ) ⋅ p ( b ∣ a ) ⋅ p ( d ∣ a , b , c ) \begin{aligned} & p(a,b,c,d)\\ & =\sum _{u} p(u)\cdot p(a)\cdot p(b\mid a,u)\cdot p(c\mid b)\cdot p(d\mid c,u)\\ & =p(a)\cdot p(c\mid b)\cdot \sum _{u} p(u)\cdot p(b\mid a,u)\cdot p(d\mid c,u)\\ & \equiv q (a)\cdot q (c\mid b)\cdot q (b,d\mid a,c)\\ & =p(a)\cdot p( b|a) \cdot p(c\mid b,a)\cdot p( d|a,b,c)\\ & =p(a)\cdot p(c\mid b)\cdot p( b|a) \cdot p( d|a,b,c) \end{aligned} p(a,b,c,d)=up(u)p(a)p(ba,u)p(cb)p(dc,u)=p(a)p(cb)up(u)p(ba,u)p(dc,u)q(a)q(cb)q(b,da,c)=p(a)p(ba)p(cb,a)p(da,b,c)=p(a)p(cb)p(ba)p(da,b,c)

接下来,我们考虑 q ( b , d ∣ a , c ) \displaystyle q (b,d\mid a,c) q(b,da,c),这个分布所对应的图就是(d),在这个图中b与d互不成祖先关系,所以是可以都可以被积分掉,如果我们将b积分掉,则会得到以下图:

在这里插入图片描述

此时a与d不再相邻,因此

∑ b q ( b , d ∣ a , c ) = q ( d ∣ c ) \sum _{b} q (b,d\mid a,c)=q (d\mid c) bq(b,da,c)=q(dc)

这个就是我们所说的verma constraint,这意味着

q ( d ∣ c ) = ∑ b q ( b , d ∣ a , c ) = ∑ b p ( b ∣ a ) ⋅ p ( d ∣ a , b , c ) q (d\mid c)=\sum _{b} q (b,d\mid a,c)=\sum _{b} p( b|a) \cdot p( d|a,b,c) q(dc)=bq(b,da,c)=bp(ba)p(da,b,c)

在这样的分布中, ∑ b p ( b ∣ a ) ⋅ p ( d ∣ a , b , c ) \displaystyle \sum _{b} p( b|a) \cdot p( d|a,b,c) bp(ba)p(da,b,c)不是一个关于a的函数!从图上我们就能够很轻易的导出这一结论。利用这一系列的思想,我们就可以提出一种考虑了这一类verma constraint所定义出来的等价类结构,称为Nested Markov Properties,它由17年Thomas的论文中给出

参考资料

Richardson, Thomas S., et al. “Nested Markov properties for acyclic directed mixed graphs.” arXiv preprint arXiv:1701.06686 (2017).

Tian, Jin, and Judea Pearl. “On the testable implications of causal models with hidden variables.” arXiv preprint arXiv:1301.0608 (2012).

Jin Tian: Estimating Identifiable Causal Effects through Double Machine Learning

UAI 2015 Amsterdam Tutorial- Non-parametric Causal Models

An Introduction to Potential Outcomes, DAGs and Single-World Intervention Graphs

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值