Verma constraint简介

一个神奇的现象

在这里插入图片描述

如图(a)所示,在这个结构中,U是隐变量,对于这样的一个分布:

∑ b P ( d ∣ a , b , c ) P ( b ∣ a ) = f ( c , d ) \sum _{b} P( d|a,b,c) P( b|a) =f( c,d) bP(da,b,c)P(ba)=f(c,d)

他不是一个关于a的函数!我们发现在某个神奇的边缘分布中,产生了一种额外的独立性!而我们知道独立性是一种非常有效的研究因果结构的方法,得到的独立性越多,所圈定的因果结构的范围就越小。那么这些“多出来的”独立性是能够帮助我们识别出更多的因果结构的。

那么这种现象是怎么来的呢?接下来就要介绍Verma constraint

Verma constraint

我们先看看上面的那个分布是怎么来的,首先对于边缘分布 p ( a , b , c , d ) \displaystyle p( a,b,c,d) p(a,b,c,d),可以如下展开:

p ( a , b , c , d ) = ∑ u p ( u ) ⋅ p ( a ) ⋅ p ( b ∣ a , u ) ⋅ p ( c ∣ b ) ⋅ p ( d ∣ c , u ) = p ( a ) ⋅ p ( c ∣ b ) ⋅ ∑ u p ( u ) ⋅ p ( b ∣ a , u ) ⋅ p ( d ∣ c , u ) ≡ q a ( a ) ⋅ q c ( c ∣ b ) ⋅ q { b , d } ( b , d ∣ a , c ) . (1) \begin{aligned} & p( a,b,c,d)\\ & =\sum _{u} p( u) \cdot p( a) \cdot p( b\mid a,u) \cdot p( c\mid b) \cdot p( d\mid c,u)\\ & =p( a) \cdot p( c\mid b) \cdot \sum _{u} p( u) \cdot p( b\mid a,u) \cdot p( d\mid c,u)\\ & \equiv q_{a}( a) \cdot q_{c}( c\mid b) \cdot q_{\{b,d\}}( b,d\mid a,c) . \end{aligned} \tag{1} p(a,b,c,d)=up(u)p(a)p(ba,u)p(cb)p(dc,u)=p(a)p(cb)up(u)p(ba,u)p(dc,u)qa(a)qc(cb)q{b,d}(b,da,c).(1)

可以看到,因为有隐变量的存在,所以这个边缘分布可以依照隐变量的积分,划分成3块(districts), { a } , { c } , { b , d } \displaystyle \{a\} ,\{c\} ,\{b,d\} {a},{c},{b,d},也有的地方叫C-components。那么,显然前两块跟p是一致的,即 p ( a ) = q a ( a ) \displaystyle p( a) =q_{a}( a) p(a)=qa(a) p ( c ∣ b ) = q c ( c ∣ b ) \displaystyle p( c\mid b) =q_{c}( c\mid b) p(cb)=qc(cb),那么最后一块是什么呢?显然,我们把全概率除以前面两项就是q了,于是

q { b , d } ( b , d ∣ a , c ) = p ( a , b , c , d ) p ( a ) p ( c ∣ b ) = p ( a , b , c , d ) p ( a ) p ( c ∣ a , b ) = p ( a ) p ( b , c , d ∣ a ) p ( a ) p ( c ∣ a , b ) = p ( a ) p ( d ∣ a , b , c ) p ( b , c ∣ a ) p ( a ) p ( c ∣ a , b ) = p ( a ) p ( d ∣ a , b , c ) p ( c ∣ a , b ) p ( b ∣ a ) p ( a ) p ( c ∣ a , b ) = p ( d ∣ a , b , c ) p ( b ∣ a ) \begin{aligned} q_{\{b,d\}}( b,d\mid a,c) & =\frac{p( a,b,c,d)}{p( a) p( c\mid b)}\\ & =\frac{p( a,b,c,d)}{p( a) p( c\mid a,b)}\\ & =\frac{p( a) p( b,c,d|a)}{p( a) p( c\mid a,b)}\\ & =\frac{p( a) p( d|a,b,c) p( b,c|a)}{p( a) p( c\mid a,b)}\\ & =\frac{p( a) p( d|a,b,c) p( c|a,b) p( b|a)}{p( a) p( c\mid a,b)}\\ & =p( d|a,b,c) p( b|a) \end{aligned} q{b,d}(b,da,c)=p(a)p(cb)p(a,b,c,d)=p(a)p(ca,b)p(a,b,c,d)=p(a)p(ca,b)p(a)p(b,c,da)=p(a)p(ca,b)p(a)p(da,b,c)p(b,ca)=p(a)p(ca,b)p(a)p(da,b,c)p(ca,b)p(ba)=p(da,b,c)p(ba)

其中第二个等号是因为 p ( c ∣ b ) = p ( c ∣ a , b ) \displaystyle p( c\mid b) =p( c\mid a,b) p(cb)=p(ca,b)。显然这个分布就是我们在上文提到的那个神奇的现象的分布,那这个分布是什么东西?

首先这个分布显然与 p ( b , d ∣ a , c ) \displaystyle p( b,d|a,c) p(b,da,c)不是同一个,实际上,这是一个干预后的分布!即 q { b , d } ( b , d ∣ a , c ) = p ( b , d ∣ d o ( a , c ) ) \displaystyle q_{\{b,d\}}( b,d\mid a,c) =p( b,d|do( a,c)) q{b,d}(b,da,c)=p(b,ddo(a,c)),这个分布的概率是对应着图©的!为什么呢?因为干预后的分布发生的概率为1,即 p ( d o ( a ) ) = p ( d o ( c ) ∣ b ) = 1 \displaystyle p( do( a)) =p( do( c) \mid b) =1 p(do(a))=p(do(c)b)=1,于是
p ( d o ( a ) , b , d o ( c ) , d ) = ∑ u p ( u ) ⋅ p ( d o ( a ) ) ⋅ p ( b ∣ a , u ) ⋅ p ( d o ( c ) ∣ b ) ⋅ p ( d ∣ c , u ) = ∑ u p ( u ) ⋅ p ( b ∣ a , u ) ⋅ p ( d ∣ c , u ) ≡ q { b , d } ( b , d ∣ a , c ) . \begin{aligned} & p( do( a) ,b,do( c) ,d)\\ & =\sum _{u} p( u) \cdot p( do( a)) \cdot p( b\mid a,u) \cdot p( do( c) \mid b) \cdot p( d\mid c,u)\\ & =\sum _{u} p( u) \cdot p( b\mid a,u) \cdot p( d\mid c,u)\\ & \equiv q_{\{b,d\}}( b,d\mid a,c) . \end{aligned} p(do(a),b,do(c),d)=up(u)p(do(a))p(ba,u)p(do(c)b)p(dc,u)=up(u)p(ba,u)p(dc,u)q{b,d}(b,da,c).

我们对比下图(a),图(c),可以发现,在(a)中 a ⊥̸ d ∣ c \displaystyle a\not{\bot } d|c adc,这是因为c是collider b的子代。但在图(c)中c不再是b的子代,于是独立性 a ⊥ d ∣ c \displaystyle a\bot d|c adc在这个干预后结构中是成立的。而且这个独立性“蕴含”在d的边缘分布中,即 ∑ b q { b , d } ( b , d ∣ a , c ) \displaystyle \sum _{b} q_{\{b,d\}}( b,d\mid a,c) bq{b,d}(b,da,c)。我们可以验证一下,当考虑隐变量时根据公式(1), q { b , d } ( b , d ∣ a , c ) = ∑ u p ( u ) ⋅ p ( b ∣ a , u ) ⋅ p ( d ∣ c , u ) \displaystyle q_{\{b,d\}}( b,d\mid a,c) =\sum _{u} p( u) \cdot p( b\mid a,u) \cdot p( d\mid c,u) q{b,d}(b,da,c)=up(u)p(ba,u)p(dc,u),于是:

q { b , d } ( d ∣ a , c ) = ∑ b q { b , d } ( b , d ∣ a , c ) = ∑ b ∑ u p ( u ) ⋅ p ( b ∣ a , u ) ⋅ p ( d ∣ c , u ) = ∑ u p ( u ) ⋅ p ( d ∣ c , u ) \begin{aligned} q_{\{b,d\}}( d\mid a,c) & =\sum _{b} q_{\{b,d\}}( b,d\mid a,c)\\ & =\sum _{b}\sum _{u} p( u) \cdot p( b\mid a,u) \cdot p( d\mid c,u)\\ & =\sum _{u} p( u) \cdot p( d\mid c,u) \end{aligned} q{b,d}(da,c)=bq{b,d}(b,da,c)=bup(u)p(ba,u)p(dc,u)=up(u)p(dc,u)

a就这样消失了!

总结一下,verma constraint的思路就是构造出干预后的分布,其对应C-component中蕴含着干预后结构的独立性,

参考资料

Tian, Jin, and Judea Pearl. “On the testable implications of causal models with hidden variables.” Proceedings of the Eighteenth conference on Uncertainty in artificial intelligence. 2002.

Maathuis, Marloes, et al., eds. Handbook of graphical models. CRC Press, 2018.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值