介绍
在这里我会介绍一种快速地计算干预后分布的通用识别算法。举个例子,相信大家都知道back-door准则,设有因果关系 X ← Z → Y {\displaystyle X\leftarrow Z\rightarrow Y} X←Z→Y且 X → Y {\displaystyle X\rightarrow Y} X→Y,于是
p ( d o ( x ) , y , z ) = p ( z ) p ( d o ( x ) ∣ z ) ⏟ = 1 p ( y ∣ z , d o ( x ) ) ⟹ ∑ z p ( d o ( x ) , y , z ) = ∑ z p ( z ) p ( y ∣ z , d o ( x ) ) ⟹ p ( y ∣ d o ( x ) ) p ( d o ( x ) ) ⏟ = 1 = ∑ z p ( z ) p ( y ∣ z , d o ( x ) ) ⟹ p ( y ∣ d o ( x ) ) = ∑ z p ( z ) p ( y ∣ z , x ) \begin{array}{ c c l } & p(do(x),y,z) & =p(z)\underbrace{p(do(x)|z)}_{=1} p(y|z,do(x))\\ \Longrightarrow & \sum _{z} p(do(x),y,z) & =\sum _{z} p(z)p(y|z,do(x))\\ \Longrightarrow & p(y|do(x))\underbrace{p(do(x))}_{=1} & =\sum _{z} p(z)p(y|z,do(x))\\ \Longrightarrow & p(y|do(x)) & =\sum _{z} p(z)p(y|z,x) \end{array} ⟹⟹⟹p(do(x),y,z)∑zp(do(x),y,z)p(y∣do(x))=1 p(do(x))p(y∣do(x))=p(z)=1 p(do(x)∣z)p(y∣z,do(x))=∑zp(z)p(y∣z,do(x))=∑zp(z)p(y∣z,do(x))=∑zp(z)p(y∣z,x)
于是我们发现干预后分布 p ( y ∣ d o ( x ) ) \displaystyle p(y|do(x)) p(y∣do(x))可以用观测数据 ∑ z p ( z ) p ( y ∣ z , x ) \displaystyle \sum _{z} p(z)p(y|z,x) z∑p(z)p(y∣z,x)来计算。这就是back-door公式了,它允许我们从纯粹的观察数据中得到干预后的分布。然而这个计算是依赖于给定的因果结构图的,而不同的结构会有不同的结果,甚至若是存在隐变量,比如图中的Z不可观测的话,那么分布 P ( y ∣ d o ( x ) ) \displaystyle P( y|do( x)) P(y∣do(x))就是不可识别的。
那么有没有一种通用的,快速的识别以及计算方法呢?本文介绍一种快速识别的算法。
ID algorithm在2003年被提出用来解决这个问题的,但这个算法不太好懂,本文的思路基于2017年的文章,并基于fixing操作来求解这一问题。接下来我们都是假设因果图是已知的。
fixing and Marginalization操作
这里先介绍一种fixing操作,首先有这样的图
所谓fixing就是把该变量的入度边干掉,其实就是一种干预操作,比如下图就是将 A 1 , A 0 \displaystyle A_{1} ,A_{0} A1,A0 fix掉:
这样fix的操作其实本质上就是做了一个分布的变换:
p
(
d
o
(
A
0
)
,
L
1
,
d
o
(
A
1
)
,
Y
)
=
p
(
A
0
,
L
1
,
A
1
,
Y
)
p
(
A
0
)
p
(
A
1
∣
L
1
,
A
0
)
p( do( A_{0}) ,L_{1} ,do( A_{1}) ,Y) =\frac{p( A_{0} ,L_{1} ,A_{1} ,Y)}{p( A_{0}) p( A_{1} |L_{1} ,A_{0})}
p(do(A0),L1,do(A1),Y)=p(A0)p(A1∣L1,A0)p(A0,L1,A1,Y)
这是因为
p
(
d
o
(
A
0
)
)
=
1
,
p
(
d
o
(
A
1
)
∣
L
1
,
A
0
)
=
1
\displaystyle p( do( A_{0})) =1,p( do( A_{1}) |L_{1} ,A_{0}) =1
p(do(A0))=1,p(do(A1)∣L1,A0)=1,除以这两个分布就相当于令他们等于1了,做了一个转换。
Districts and Fixing
更一般的情况是,给定一个因果网络,以及变量 v = { v 1 , . . . , v n } {\displaystyle v=\{v_{1} ,...,v_{n} \}} v={v1,...,vn},假设没有隐变量,对于分布 p ( v ) {\displaystyle p(v)} p(v),可以进行概率分解:
P ( v ) = ∏ i P ( v i ∣ p a i ) P(v)=\prod _{i} P(v_{i} |pa_{i} ) P(v)=i∏P(vi∣pai)
那如果我们对其中某个
v
j
\displaystyle v_{j}
vj进行干预,则意味着
p
(
d
o
(
v
j
)
∣
P
a
j
)
=
1
\displaystyle p( do( v_{j}) |Pa_{j}) =1
p(do(vj)∣Paj)=1,于是,干预后的分布为
P
∗
(
v
)
=
∏
i
∈
{
1
,
.
.
,
j
−
1
,
j
+
1
,
.
.
.
,
n
}
P
(
v
i
∣
p
a
i
)
=
P
(
v
)
P
(
v
j
∣
p
a
j
)
(1)
P^{*} (v)=\prod _{i\in \{1,..,j-1,j+1,...,n\}} P(v_{i} |pa_{i} )=\frac{P(v)}{P(v_{j} |pa_{j} )} \tag{1}
P∗(v)=i∈{1,..,j−1,j+1,...,n}∏P(vi∣pai)=P(vj∣paj)P(v)(1)
你会发现,一个干预后的分布其实就是简单地将 p ( v ) \displaystyle p( v) p(v)除以对应的干预的分布。但你可能会意识到,如果有隐变量,那么事情就没那么简单了,看下图
可以发现,每个district都是可计算的,我们总能够根据district对全概率进行分解,使得
P ( x 1 , x 2 , x 3 , x 4 , x 5 ) = p ( x 1 , x 2 ) p ( x 3 , x 4 ∣ x 1 , x 2 ) p ( x 5 ∣ x 1 , x 2 , x 3 , x 4 ) = p ( x 1 , x 2 ) p ( x 3 , x 4 ∣ x 1 , x 2 ) p ( x 5 ∣ x 3 ) \begin{aligned} P( x_{1} ,x_{2} ,x_{3} ,x_{4} ,x_{5}) & =p( x_{1} ,x_{2}) p( x_{3} ,x_{4} |x_{1} ,x_{2}) p( x_{5} |x_{1} ,x_{2} ,x_{3} ,x_{4})\\ & =p( x_{1} ,x_{2}) p( x_{3} ,x_{4} |x_{1} ,x_{2}) p( x_{5} |x_{3}) \end{aligned} P(x1,x2,x3,x4,x5)=p(x1,x2)p(x3,x4∣x1,x2)p(x5∣x1,x2,x3,x4)=p(x1,x2)p(x3,x4∣x1,x2)p(x5∣x3)
从而得到每一个district的概率分布。由此,我们可以推断,对于每一个district分布,如 q ( x 3 , x 4 ∣ x 1 , x 2 ) \displaystyle q( x_{3} ,x_{4} |x_{1} ,x_{2}) q(x3,x4∣x1,x2)都相当于 q ( x 3 , x 4 ∣ d o ( x 1 , x 2 ) ) \displaystyle q( x_{3} ,x_{4} |do( x_{1} ,x_{2})) q(x3,x4∣do(x1,x2)),可以想象这个q可以将其余所有的q fix掉来得到的,从而只剩下 x 3 , x 4 \displaystyle x_{3} ,x_{4} x3,x4没有被fix.
然而,在有隐变量的时候,district内部的变量的fix要怎么计算是一个问题。因为district内部需要对隐变量u,v求和,无法简单的看做一个个 P ( v i ∣ p a i ) \displaystyle P(v_{i} |pa_{i} ) P(vi∣pai)。为此,我们需要推广fixing为:
ϕ r ( q ( V ∣ W ) ; G ) ≡ q ( V ∣ W ) q ( r ∣ m b G ( r ) ) \phi _{r}( q( V|W) ;G) \equiv \frac{q( V|W)}{q( r|mb_{G}( r))} ϕr(q(V∣W);G)≡q(r∣mbG(r))q(V∣W)
其中
m b G ( r ) = { y ≠ r ∣ ( r ← y ) o r ( r ↔ . . . ↔ y ) o r ( r ↔ . . . ↔ ∘ ← y ) } mb_{G}( r) =\left\{y\neq r|\left( r\leftarrow y\right) \ or\ ( r\leftrightarrow ...\leftrightarrow y) \ or\ \left( r\ \leftrightarrow ...\leftrightarrow \circ \leftarrow y\right)\right\} mbG(r)={y=r∣(r←y) or (r↔...↔y) or (r ↔...↔∘←y)}
表示所有r的直接父母,以及所有与r以双向边连接的结点,以及双向边连接的结点的父母。这里用 q \displaystyle q q来表示每个district的分布,而且这样的操作就相当于对r做了fixing操作后所得到的分布, ϕ r \displaystyle \phi _{r} ϕr表示了对r进行fix的操作。
然而,不是每一个结点都可以被fix的,为保证其可算,必须满足以下规则:
对于结点v,如果存在v的子代和v属于同一个district,则v是不可fix
这也是不叫干预而叫fixing的原因,是为了加以区分。
举个例子,在下图中
因为 L 1 , Y \displaystyle L_{1} ,Y L1,Y就形成一个district,所以 L 1 \displaystyle L_{1} L1是不可fix的,因为 Y \displaystyle Y Y是 L 1 \displaystyle L_{1} L1的子代,而且他们属于同一个district,另一方面 A 0 , A 1 , Y \displaystyle A_{0} ,A_{1} ,Y A0,A1,Y则是可fix的,因为它们要么没有双向边,要么没有子代。
Marginalization
那么既然我们fixing意味着一种可计算的分布转换,那么直观上,我就可以不停的fix,将分布转为我们的目标分布。比如我们目标是 P ( Y ∣ d o ( A 0 , A 1 ) ) \displaystyle P( Y|do( A_{0} ,A_{1})) P(Y∣do(A0,A1)),于是就想办法将图变成下图的形状。
然而你会发现仅仅使用fixing还不能得到这个图,因为fixing不能够将结点从图中“删去”,而Marginalization则定义了这种删除的操作,并且类似的,在满足它的要求下, Marginalization是可算的!具体要求如下:
对于考虑 W ⊆ C \displaystyle W\subseteq C W⊆C,W是C的某个子集,只要W是图 G ( C ) \displaystyle G( C) G(C)上的ancestral set,也就是 W = a n ( W ) G ( C ) \displaystyle W=an( W)_{G( C)} W=an(W)G(C)(意味着W集合中包含了所有W中的祖先),那么W就可以保留,然后其余的变量都可以被Marginalization:
Q [ W ] = ∑ c \ w Q [ C ] I f W i s a n c e s t r a l i n G ( C ) Q[\mathbf{W} ]=\sum _{\mathbf{c} \backslash \mathbf{w}} Q[\mathbf{C} ]\ \ \ If\ W\ is\ ancestral\ in\ G(\mathbf{C} ) Q[W]=c\w∑Q[C] If W is ancestral in G(C)
直观来看,一些根结点是可以保留的,它的那些子代可以被积分掉。有了这个,我们就能发现
这个图中的 L 1 \displaystyle L_{1} L1就可以被积分掉,因为 { A 0 , A 1 , Y } \displaystyle \{A_{0} ,A_{1} ,Y\} {A0,A1,Y}就构成了一个ancestral set(集合里的所有祖先都在这个集合里). 积分掉之后我们就可以得到这个目标分布了:
Identifying causal effect via Fixing and Marginalization
我们就以这个作为例子,来讲解下这个算法:
首先,我们目标是 p ( Y ∣ d o ( A 0 , A 1 ) ) \displaystyle p( Y|do( A_{0} ,A_{1})) p(Y∣do(A0,A1)),那第一步先按照district进行概率展开:
p ( A 0 , L 1 , A 1 , Y ) = ∑ u P ( Y ∣ A 1 , u , A 0 ) P ( L 1 ∣ A 0 , u ) P ( A 1 ∣ L 1 , A 0 ) P ( A 0 ) = q ( Y , L 1 ∣ A 0 , A 1 ) q ( A 1 ∣ L 1 , A 0 ) q ( A 0 ) = p ( Y ∣ L 1 , A 0 , A 1 ) P ( L 1 ∣ A 0 ) P ( A 1 ∣ L 1 , A 0 ) P ( A 0 ) \begin{aligned} p( A_{0} ,L_{1} ,A_{1} ,Y) & =\sum _{u} P( Y|A_{1} ,u,A_{0}) P( L_{1} |A_{0} ,u) P( A_{1} |L_{1} ,A_{0}) P( A_{0})\\ & =q( Y,L_{1} |A_{0} ,A_{1}) q( A_{1} |L_{1} ,A_{0}) q( A_{0})\\ & =p( Y|L_{1} ,A_{0} ,A_{1}) P( L_{1} |A_{0}) P( A_{1} |L_{1} ,A_{0}) P( A_{0}) \end{aligned} p(A0,L1,A1,Y)=u∑P(Y∣A1,u,A0)P(L1∣A0,u)P(A1∣L1,A0)P(A0)=q(Y,L1∣A0,A1)q(A1∣L1,A0)q(A0)=p(Y∣L1,A0,A1)P(L1∣A0)P(A1∣L1,A0)P(A0)
接下来,我们先对 A 0 , A 1 \displaystyle A_{0} ,A_{1} A0,A1 fix,得到
ϕ A 0 ∘ ϕ A 1 ( p ( A 0 , L 1 , A 1 , Y ) , G ) = p ( A 0 , L 1 , A 1 , Y ) P ( A 1 ∣ L 1 , A 0 ) P ( A 0 ) = q ( Y , L 1 ∣ A 0 , A 1 ) \begin{aligned} \phi _{A_{0}} \circ \phi _{A_{1}}( p( A_{0} ,L_{1} ,A_{1} ,Y) ,G) & =\frac{p( A_{0} ,L_{1} ,A_{1} ,Y)}{P( A_{1} |L_{1} ,A_{0}) P( A_{0})}\\ & =q( Y,L_{1} |A_{0} ,A_{1}) \end{aligned} ϕA0∘ϕA1(p(A0,L1,A1,Y),G)=P(A1∣L1,A0)P(A0)p(A0,L1,A1,Y)=q(Y,L1∣A0,A1)
于是, q ( Y , L 1 ∣ A 0 , A 1 ) \displaystyle q( Y,L_{1} |A_{0} ,A_{1}) q(Y,L1∣A0,A1)将对应着以下图:
接下来,我们对 L 1 \displaystyle L_{1} L1作Marginalization:
∑ L 1 q ( Y , L 1 ∣ A 0 , A 1 ) = q ( Y ∣ A 0 , A 1 ) \sum _{L_{1}} q( Y,L_{1} |A_{0} ,A_{1}) =q( Y|A_{0} ,A_{1}) L1∑q(Y,L1∣A0,A1)=q(Y∣A0,A1)
联立上述结果,我们有
p ( Y ∣ d o ( A 0 , A 1 ) ) = q ( Y ∣ A 0 , A 1 ) = ∑ L 1 q ( Y , L 1 ∣ A 0 , A 1 ) = ∑ L 1 p ( A 0 , L 1 , A 1 , Y ) P ( A 1 ∣ L 1 , A 0 ) P ( A 0 ) p( Y|do( A_{0} ,A_{1})) =q( Y|A_{0} ,A_{1}) =\sum _{L_{1}} q( Y,L_{1} |A_{0} ,A_{1}) =\sum _{L_{1}}\frac{p( A_{0} ,L_{1} ,A_{1} ,Y)}{P( A_{1} |L_{1} ,A_{0}) P( A_{0})} p(Y∣do(A0,A1))=q(Y∣A0,A1)=L1∑q(Y,L1∣A0,A1)=L1∑P(A1∣L1,A0)P(A0)p(A0,L1,A1,Y)
Example 2
再看一个例子
在这里我们是要求 P ( Y ∣ d o ( X ) ) \displaystyle P( Y|do( X)) P(Y∣do(X)),我们先分解一下概率:
P ( X , Y , R , W ) = q ( R ∣ W ) q ( X , Y , W ∣ R ) = P ( R ∣ W ) P ( X , Y ∣ W , R ) P ( W ) \begin{aligned} P( X,Y,R,W) & =q( R|W) q( X,Y,W|R)\\ & =P( R|W) P( X,Y|W,R) P( W) \end{aligned} P(X,Y,R,W)=q(R∣W)q(X,Y,W∣R)=P(R∣W)P(X,Y∣W,R)P(W)
接下来我们的目标是 q ( Y ∣ X ) \displaystyle q( Y|X) q(Y∣X),也就是
要实现这一点,我们第一步是fix R,使得
对应的分布为
ϕ R ( P ( X , Y , R , W ) , G ) = P ( X , Y , R , W ) P ( R ∣ W ) = q ( X , Y , W ∣ R ) = P ( X , Y ∣ W , R ) P ( W ) \phi _{R}( P( X,Y,R,W) ,G) =\frac{P( X,Y,R,W)}{P( R|W)} =q( X,Y,W|R) =P( X,Y|W,R) P( W) ϕR(P(X,Y,R,W),G)=P(R∣W)P(X,Y,R,W)=q(X,Y,W∣R)=P(X,Y∣W,R)P(W)
接下来,由于W不是X和Y的子代或者祖先,而X,Y则形成一个祖先集合,因此W可以被积分掉,于是
∑ W q ( X , Y , W ∣ R ) = q ( X , Y ∣ R ) = ∑ W P ( X , Y ∣ W , R ) P ( W ) \sum _{W} q( X,Y,W|R) =q( X,Y|R) =\sum _{W} P( X,Y|W,R) P( W) W∑q(X,Y,W∣R)=q(X,Y∣R)=W∑P(X,Y∣W,R)P(W)
最后我们可以fix x
ϕ X ( q ( X , Y ∣ R ) , G ( { X , Y } ) ) = q ( X , Y ∣ R ) q ( X ∣ R ) = q ( X , Y ∣ R ) ∑ Y q ( X , Y ∣ R ) = ∑ W P ( X , Y ∣ W , R ) P ( W ) ∑ Y ∑ W P ( X , Y ∣ W , R ) P ( W ) \phi _{X}( q( X,Y|R) ,G(\{X,Y\})) =\frac{q( X,Y|R)}{q( X|R)} =\frac{q( X,Y|R)}{\sum _{Y} q( X,Y|R)} =\frac{\sum _{W} P( X,Y|W,R) P( W)}{\sum _{Y}\sum _{W} P( X,Y|W,R) P( W)} ϕX(q(X,Y∣R),G({X,Y}))=q(X∣R)q(X,Y∣R)=∑Yq(X,Y∣R)q(X,Y∣R)=∑Y∑WP(X,Y∣W,R)P(W)∑WP(X,Y∣W,R)P(W)
这就是我们的目标分布了,即
P ( Y ∣ d o ( X ) ) = ∑ W P ( X , Y ∣ W , R ) P ( W ) ∑ Y ∑ W P ( X , Y ∣ W , R ) P ( W ) P( Y|do( X)) =\frac{\sum _{W} P( X,Y|W,R) P( W)}{\sum _{Y}\sum _{W} P( X,Y|W,R) P( W)} P(Y∣do(X))=∑Y∑WP(X,Y∣W,R)P(W)∑WP(X,Y∣W,R)P(W)
Example 3: front door
这是个更复杂的例子
上图对应的是典型的front door graph,他的概率分解如下:
P ( X , M , Y ) = P ( M ∣ X ) ⏟ D 1 ∑ U p ( X ∣ U ) P ( Y ∣ M , U ) P ( U ) ⏟ D 2 = q ( M ∣ X ) q ( X , Y ∣ M ) = P ( M ∣ X ) P ( Y ∣ M , X ) P ( X ) \begin{aligned} P( X,M,Y) & =\underbrace{P( M|X)}_{D_{1}}\underbrace{\sum _{U} p( X|U) P( Y|M,U) P( U)}_{D_{2}}\\ & =q( M|X) q( X,Y|M)\\ & =P( M|X) P( Y|M,X) P( X) \end{aligned} P(X,M,Y)=D1 P(M∣X)D2 U∑p(X∣U)P(Y∣M,U)P(U)=q(M∣X)q(X,Y∣M)=P(M∣X)P(Y∣M,X)P(X)
我们的目标是找到 P ( Y ∣ d o ( X ) ) \displaystyle P( Y|do( X)) P(Y∣do(X))的分布,可以发现,X,Y在这个图中不是直接相连,这一类分体可以将其分解为若干个干预分布的乘积:
p ( Y ∣ d o ( X ) ) = ∑ m P ( M , Y ∣ d o ( X ) ) = ∑ m P ( M ∣ d o ( X ) ) P ( Y ∣ M ) \begin{aligned} p( Y|do( X)) & =\sum _{m} P( M,Y|do( X))\\ & =\sum _{m} P( M|do( X)) P( Y|M) \end{aligned} p(Y∣do(X))=m∑P(M,Y∣do(X))=m∑P(M∣do(X))P(Y∣M)
可以发现,要求解这一个分布,我们需要识别出 P ( M ∣ d o ( X ) ) \displaystyle P( M|do( X)) P(M∣do(X)),因为x在这里是不可fix的,所以我们需要先fix M再fix x,于是:
P ( Y ∣ d o ( M ) ) = ϕ X ∘ ϕ M ( P ( X , M , Y ) ; G ) = P ( X , M , Y ) q ( M ∣ X ) q ( X ∣ Y , M ) P( Y|do( M)) =\phi _{X} \circ \phi _{M}( P( X,M,Y) ;G) =\frac{P( X,M,Y)}{q( M|X) q( X|Y,M)} P(Y∣do(M))=ϕX∘ϕM(P(X,M,Y);G)=q(M∣X)q(X∣Y,M)P(X,M,Y)
显然, q ( M ∣ X ) = P ( M ∣ X ) \displaystyle q( M|X) =P( M|X) q(M∣X)=P(M∣X),而
q ( X ∣ Y , M ) = q ( X , Y ∣ M ) q ( Y ∣ M ) = q ( X , Y ∣ M ) ∑ x q ( X , Y ∣ M ) = P ( Y ∣ M , X ) P ( X ) ∑ x P ( Y ∣ M , X ) P ( X ) q( X|Y,M) =\frac{q( X,Y|M)}{q( Y|M)} =\frac{q( X,Y|M)}{\sum _{x} q( X,Y|M)} =\frac{P( Y|M,X) P( X)}{\sum _{x} P( Y|M,X) P( X)} q(X∣Y,M)=q(Y∣M)q(X,Y∣M)=∑xq(X,Y∣M)q(X,Y∣M)=∑xP(Y∣M,X)P(X)P(Y∣M,X)P(X)
于是,
P ( Y ∣ d o ( M ) ) = P ( X , M , Y ) q ( M ∣ X ) q ( X ∣ Y , M ) = q ( X , Y ∣ M ) q ( X ∣ Y , M ) = ∑ x q ( X , Y ∣ M ) = ∑ x P ( Y ∣ M , X ) P ( X ) P( Y|do( M)) =\frac{P( X,M,Y)}{q( M|X) q( X|Y,M)} =\frac{q( X,Y|M)}{q( X|Y,M)} =\sum _{x} q( X,Y|M) =\sum _{x} P( Y|M,X) P( X) P(Y∣do(M))=q(M∣X)q(X∣Y,M)P(X,M,Y)=q(X∣Y,M)q(X,Y∣M)=x∑q(X,Y∣M)=x∑P(Y∣M,X)P(X)
p ( Y ∣ d o ( X ) ) = ∑ m P ( M ∣ d o ( X ) ) P ( Y ∣ M ) = ∑ m P ( Y ∣ M ) ∑ x P ( Y ∣ M , X ) P ( X ) \begin{aligned} p( Y|do( X)) & =\sum _{m} P( M|do( X)) P( Y|M)\\ & =\sum _{m} P( Y|M)\sum _{x} P( Y|M,X) P( X) \end{aligned} p(Y∣do(X))=m∑P(M∣do(X))P(Y∣M)=m∑P(Y∣M)x∑P(Y∣M,X)P(X)
Finding Verma constraint via fixing
最后fixing这个工具还可以导出一种叫verma constraint的东西,看下图:
这个结构有个神奇的规律 ∑ b p ( b ∣ a ) ⋅ p ( d ∣ a , b , c ) \displaystyle \sum _{b} p( b|a) \cdot p( d|a,b,c) b∑p(b∣a)⋅p(d∣a,b,c)是一个跟a无关的函数!很神奇,因为里面有a的,但却与a无关,为什么会出现这样的事情?我们可以用fixing的方法来分析下这个图。
首先找district:
p ( a , b , c , d ) = ∑ u p ( u ) ⋅ p ( a ) ⋅ p ( b ∣ a , u ) ⋅ p ( c ∣ b ) ⋅ p ( d ∣ c , u ) = p ( a ) ⋅ p ( c ∣ b ) ⋅ ∑ u p ( u ) ⋅ p ( b ∣ a , u ) ⋅ p ( d ∣ c , u ) ≡ q ( a ) ⋅ q ( c ∣ b ) ⋅ q ( b , d ∣ a , c ) = p ( a ) ⋅ p ( b ∣ a ) ⋅ p ( c ∣ b , a ) ⋅ p ( d ∣ a , b , c ) = p ( a ) ⋅ p ( c ∣ b ) ⋅ p ( b ∣ a ) ⋅ p ( d ∣ a , b , c ) \begin{aligned} & p(a,b,c,d)\\ & =\sum _{u} p(u)\cdot p(a)\cdot p(b\mid a,u)\cdot p(c\mid b)\cdot p(d\mid c,u)\\ & =p(a)\cdot p(c\mid b)\cdot \sum _{u} p(u)\cdot p(b\mid a,u)\cdot p(d\mid c,u)\\ & \equiv q (a)\cdot q (c\mid b)\cdot q (b,d\mid a,c)\\ & =p(a)\cdot p( b|a) \cdot p(c\mid b,a)\cdot p( d|a,b,c)\\ & =p(a)\cdot p(c\mid b)\cdot p( b|a) \cdot p( d|a,b,c) \end{aligned} p(a,b,c,d)=u∑p(u)⋅p(a)⋅p(b∣a,u)⋅p(c∣b)⋅p(d∣c,u)=p(a)⋅p(c∣b)⋅u∑p(u)⋅p(b∣a,u)⋅p(d∣c,u)≡q(a)⋅q(c∣b)⋅q(b,d∣a,c)=p(a)⋅p(b∣a)⋅p(c∣b,a)⋅p(d∣a,b,c)=p(a)⋅p(c∣b)⋅p(b∣a)⋅p(d∣a,b,c)
接下来,我们考虑 q ( b , d ∣ a , c ) \displaystyle q (b,d\mid a,c) q(b,d∣a,c),这个分布所对应的图就是(d),在这个图中b与d互不成祖先关系,所以是可以都可以被积分掉,如果我们将b积分掉,则会得到以下图:
此时a与d不再相邻,因此
∑ b q ( b , d ∣ a , c ) = q ( d ∣ c ) \sum _{b} q (b,d\mid a,c)=q (d\mid c) b∑q(b,d∣a,c)=q(d∣c)
这个就是我们所说的verma constraint,这意味着
q ( d ∣ c ) = ∑ b q ( b , d ∣ a , c ) = ∑ b p ( b ∣ a ) ⋅ p ( d ∣ a , b , c ) q (d\mid c)=\sum _{b} q (b,d\mid a,c)=\sum _{b} p( b|a) \cdot p( d|a,b,c) q(d∣c)=b∑q(b,d∣a,c)=b∑p(b∣a)⋅p(d∣a,b,c)
在这样的分布中, ∑ b p ( b ∣ a ) ⋅ p ( d ∣ a , b , c ) \displaystyle \sum _{b} p( b|a) \cdot p( d|a,b,c) b∑p(b∣a)⋅p(d∣a,b,c)不是一个关于a的函数!从图上我们就能够很轻易的导出这一结论。利用这一系列的思想,我们就可以提出一种考虑了这一类verma constraint所定义出来的等价类结构,称为Nested Markov Properties,它由17年Thomas的论文中给出
参考资料
Richardson, Thomas S., et al. “Nested Markov properties for acyclic directed mixed graphs.” arXiv preprint arXiv:1701.06686 (2017).
Tian, Jin, and Judea Pearl. “On the testable implications of causal models with hidden variables.” arXiv preprint arXiv:1301.0608 (2012).
Jin Tian: Estimating Identifiable Causal Effects through Double Machine Learning
UAI 2015 Amsterdam Tutorial- Non-parametric Causal Models
An Introduction to Potential Outcomes, DAGs and Single-World Intervention Graphs