因果图—后门准则

1.贝叶斯网络概率图

1.1 链式法则

P ( x 1 , x 2 , ⋯   , x n ) = ∏ i = 1 n P ( x i ∣ x 1 , x 2 ⋯ x i − 1 ) P(x_1,x_2,\cdots,x_n) = \prod_{i=1}^n P(x_i|x_1,x_2 \cdots x_{i-1}) P(x1,x2,,xn)=i=1nP(xix1,x2xi1)

举例: P ( x 1 , x 2 , x 3 , x 4 ) = P ( x 1 ) ∗ P ( x 2 ∣ x 1 ) ∗ P ( x 3 ∣ x 1 , x 2 ) ∗ P ( x 4 ∣ x 1 , x 2 , x 3 ) P(x_1,x_2,x_3,x_4) = P(x_1)*P(x_2|x_1)*P(x_3|x_1,x_2)*P(x_4|x_1,x_2,x_3) P(x1,x2,x3,x4)=P(x1)P(x2x1)P(x3x1,x2)P(x4x1,x2,x3)
推导过程:
P ( x 1 , x 2 , x 3 , x 4 ) = P ( x 4 ∣ x 1 , x 2 , x 3 ) ∗ P ( x 1 , x 2 , x 3 ) P ( x 1 , x 2 , x 3 , x 4 ) = P ( x 4 ∣ x 1 , x 2 , x 3 ) ∗ P ( x 1 , x 2 , x 3 ) P ( x 1 , x 2 , x 3 ) = P ( x 3 ∣ x 1 , x 2 ) ∗ P ( x 1 , x 2 ) P ( x 1 , x 2 ) = P ( x 2 ∣ x 1 ) ∗ P ( x 1 ) \begin{aligned} P(x_1,x_2,x_3,x_4) &= P(x_4|x_1,x_2,x_3) * P(x_1,x_2,x_3) \\ P(x_1,x_2,x_3,x_4) &= P(x_4|x_1,x_2,x_3) * P(x_1,x_2,x_3) \\ P(x_1,x_2,x_3) &= P(x_3|x_1,x_2) * P(x_1,x_2) \\ P(x_1,x_2) &= P(x_2|x_1) * P(x_1) \end{aligned} P(x1,x2,x3,x4)P(x1,x2,x3,x4)P(x1,x2,x3)P(x1,x2)=P(x4x1,x2,x3)P(x1,x2,x3)=P(x4x1,x2,x3)P(x1,x2,x3)=P(x3x1,x2)P(x1,x2)=P(x2x1)P(x1)
第四个等式是常见的贝叶斯公式

x 1 , x 2 , x 3 , x 4 x_1,x_2,x_3,x_4 x1,x2,x3,x4符合下图关系, x 4 x_4 x4仅依赖于 x 3 x_3 x3,那么在公式1中 P ( x 4 ∣ x 1 , x 2 , x 3 ) P(x_4|x_1,x_2,x_3) P(x4x1,x2,x3)可以改写成 P ( x 4 ∣ x 3 ) P(x_4|x_3) P(x4x3),这样需要算的参数数量会减少

x 1 , x 2 , x 3 , x 4 x_1,x_2,x_3,x_4 x1,x2,x3,x4符合下图关系, x 2 x_2 x2不再以 x 1 x_1 x1为条件,那么在公式1中 P ( x 2 ∣ x 1 ) P(x_2|x_1) P(x2x1)可以改写成 P ( x 2 ) P(x_2) P(x2);同样的 x 2 x_2 x2不再是 x 3 x_3 x3的父节点, P ( x 3 ∣ x 1 , x 2 ) P(x_3|x_1,x_2) P(x3x1,x2)可以改写成 P ( x 3 ∣ x 2 ) P(x_3|x_2) P(x3x2)

1.2 有向图因式分解公式

P ( x 1 , x 2 , ⋯   , x n ) = ∏ i = 1 n P ( x i ∣ x p a i ) P(x_1,x_2,\cdots,x_n) = \prod_{i=1}^n P(x_i|x_{pa_i}) P(x1,x2,,xn)=i=1nP(xixpai)

1.chain模式

证明在给定 x 2 x_2 x2(即block x 1 x_1 x1 x 3 x_3 x3之间的通路)的条件下, x 1 x_1 x1 x 3 x_3 x3独立,即 x 1 ⊥ x 3 ∣ x 2 x_1 \bot x_3 |x_2 x1x3x2

根 据 有 向 图 因 式 分 解 公 式 : P ( x 1 , x 2 , x 3 ) = P ( x 1 ) ∗ P ( x 2 ∣ x 1 ) ∗ P ( x 3 ∣ x 2 ) 根 据 链 式 公 式 : P ( x 1 , x 2 , x 3 ) = P ( x 1 , x 3 ∣ x 2 ) ∗ P ( x 2 ) 得 出 : P ( x 1 , x 3 ∣ x 2 ) = P ( x 1 ) ∗ P ( x 2 ∣ x 1 ) ∗ P ( x 3 ∣ x 2 ) P ( x 2 ) = P ( x 1 ∣ x 2 ) ∗ P ( x 3 ∣ x 2 ) 所 以 得 到 x 1 和 x 3 独 立 \begin{aligned} 根据有向图因式分解公式:P(x_1,x_2,x_3) &= P(x_1)*P(x_2|x_1)*P(x_3|x_2) \\ 根据链式公式:P(x_1,x_2,x_3) &= P(x_1,x_3|x_2)*P(x_2) \\ 得出: P(x_1,x_3|x_2) &= \frac {P(x_1)*P(x_2|x_1)*P(x_3|x_2)}{P(x_2)} \\ &= P(x_1|x_2)*P(x_3|x_2) \\ 所以得到x_1和x_3独立 \end{aligned} P(x1,x2,x3)P(x1,x2,x3)P(x1,x3x2)x1x3=P(x1)P(x2x1)P(x3x2)=P(x1,x3x2)P(x2)=P(x2)P(x1)P(x2x1)P(x3x2)=P(x1x2)P(x3x2)

2.Diverge模式

证明在给定 x 2 x_2 x2(即block x 1 x_1 x1 x 3 x_3 x3之间的通路)的条件下, x 1 x_1 x1 x 3 x_3 x3独立,即 x 1 ⊥ x 3 ∣ x 2 x_1 \bot x_3 |x_2 x1x3x2

根 据 有 向 图 因 式 分 解 公 式 : P ( x 1 , x 2 , x 3 ) = P ( x 2 ) ∗ P ( x 1 ∣ x 2 ) ∗ P ( x 3 ∣ x 2 ) 根 据 链 式 公 式 : P ( x 1 , x 2 , x 3 ) = P ( x 1 , x 3 ∣ x 2 ) ∗ P ( x 2 ) 得 出 : P ( x 1 , x 3 ∣ x 2 ) = P ( x 1 ∣ x 2 ) ∗ P ( x 3 ∣ x 2 ) \begin{aligned} 根据有向图因式分解公式:P(x_1,x_2,x_3) &= P(x_2)*P(x_1|x_2 )*P(x_3|x_2) \\ 根据链式公式:P(x_1,x_2,x_3) &= P(x_1,x_3|x_2)*P(x_2) \\ 得出: P(x_1,x_3|x_2) &= P(x_1|x_2)*P(x_3|x_2) \\ \end{aligned} P(x1,x2,x3)P(x1,x2,x3)P(x1,x3x2)=P(x2)P(x1x2)P(x3x2)=P(x1,x3x2)P(x2)=P(x1x2)P(x3x2)

3.Converge/Collider模式

x 1 x_1 x1 x 3 x_3 x3独立(即 x 2 x_2 x2block了 x 1 x_1 x1 x 3 x_3 x3之间的通路),但在给定 x 2 x_2 x2的条件下, x 1 x_1 x1 x 3 x_3 x3不独立:

根 据 有 向 图 因 式 分 解 公 式 : P ( x 1 , x 2 , x 3 ) = P ( x 1 ) ∗ P ( x 3 ) ∗ P ( x 2 ∣ x 1 , x 3 ) 根 据 链 式 公 式 : P ( x 1 , x 2 , x 3 ) = P ( x 2 ∣ x 1 , x 3 ) ∗ P ( x 1 , x 3 ) 得 出 : P ( x 1 , x 3 ) = P ( x 1 ) ∗ P ( x 3 ) 另 外 一 种 证 明 方 法 : P ( x 1 , x 3 ) = ∑ x 2 P ( x 1 , x 2 , x 3 ) = ∑ x 2 P ( x 1 ) ∗ P ( x 3 ) ∗ P ( x 2 ∣ x 1 , x 3 ) = P ( x 1 ) ∗ P ( x 3 ) ∗ ∑ x 2 P ( x 2 ∣ x 1 , x 3 ) = P ( x 1 ) ∗ P ( x 3 ) \begin{aligned} 根据有向图因式分解公式:P(x_1,x_2,x_3) &= P(x_1)*P(x_3)*P(x_2|x_1,x_3 ) \\ 根据链式公式:P(x_1,x_2,x_3) &= P(x_2|x_1,x_3)*P(x_1,x_3) \\ 得出: P(x_1,x_3) &= P(x_1)*P(x_3) \\ 另外一种证明方法: P(x_1,x_3) &= \sum_{x_2} P(x_1,x_2,x_3) \\ &= \sum_{x_2} P(x_1)*P(x_3)*P(x_2|x_1,x_3 ) \\ &= P(x_1)*P(x_3)*\sum_{x_2} P(x_2|x_1,x_3 ) \\ &= P(x_1)*P(x_3) \end{aligned} P(x1,x2,x3)P(x1,x2,x3)P(x1,x3)P(x1,x3)=P(x1)P(x3)P(x2x1,x3)=P(x2x1,x3)P(x1,x3)=P(x1)P(x3)=x2P(x1,x2,x3)=x2P(x1)P(x3)P(x2x1,x3)=P(x1)P(x3)x2P(x2x1,x3)=P(x1)P(x3)

D-Separation

  D-Separation是一种用来判断变量是否条件独立的图形化方法。换言之,对于一个DAG(有向无环图)E,D-Separation方法可以快速的判断出两个节点之间是否是条件独立的。
  如果A,B,C是三个集合(可以是单独的节点或者是节点的集合),为了判断 A 和 B 是否是 C 条件独立的, 我们考虑 E 中所有 A 和 B 之间的无向路径 。对于其中的一条路径,如果满足以下两个条件中的任意一条,则称这条路径是阻塞(block)

(1)路径中存在某个节点 X 是Chain或者Diverge节点,并且 X 是包含在 C 中的;
(2)路径中存在某个节点 X 是Converge节点,并且 X 或 X 的儿子是不包含在 C 中的;
如果 A,B 间所有的路径都是阻塞的,那么 A,B 就是关于 C 条件独立的;否则, A,B 不是关于 C 条件独立的。

例子

判断图中a与b是否在c条件下独立?
  判断 a 和 b 是否是 c下条件独立的: a 到 b 只有一条路径 a->e->f->b 。 考虑路径上的点 e 和 f :其中e 是Converge类型的,且 e 的儿子节点就是 c ,根据条件2,e不阻断。而节点f是Diverge类型节点,根据条件1,f不在c中,所以也有a,b不是c条件下独立。

判断图中a与b是否在f条件下独立?
  判断 a 和 b 是否是 f 下条件独立的:路径 a->e->f->b 上的所有节点。考虑路径上的点e和f:节点 e 是Converge类型的,e 和她的儿子节点 c 都不在 f 中,所以根据条件2,e是阻断路径的节点。节点 f 是Diverge类型节点,且 f 节点就在 f中,所以 f 节点阻断了路径。 结论:a 和 b是 f 下条件独立的。

2.后门调整准则

2.1 干预 / d o do do算子


intervening 与“以变量为条件”(conditioning)的区别

  • 表现形式:$P(Y = y ∣ X = x ) $ vs P ( Y = y ∣ d o ( X = x ) ) P(Y=y | do(X=x)) P(Y=ydo(X=x))
  • “以变量为条件”是选取观测到T=1的样本子集,“干预”是让所有样本T=1
  • “以变量为条件”不改变原始数据的分布,“干预”改变了原始数据的分布

intervening定义与性质

  • 定义:将因果图中结点 X X X值修改为 x x x,记为 d o ( X = x ) do(X = x ) do(X=x),可以简写为 d o ( x ) do(x ) do(x)
  • 性质:在对结点 X X X进行干预时,会删除因果图中指向 X X X的边,干预节点的概率为1,其他的节点概率保持不变;

2.2 截断式因式分解(Truncated Factorization)

根 据 有 向 图 因 式 分 解 公 式 : P ( y , t , x ) = P ( x ) ∗ P ( t ∣ x ) ∗ P ( y ∣ t , x ) 根 据 截 断 式 的 性 质 , P ( t ∣ x ) = 1 : P ( y , x ∣ d o ( t ) ) = P ( y ∣ t , x ) ∗ P ( x ) 边 际 化 x : P ( y ∣ d o ( t ) ) = ∑ x P ( y ∣ t , x ) ∗ P ( x ) \begin{aligned} 根据有向图因式分解公式:P(y,t,x) &= P(x)*P(t|x)*P(y|t,x) \\ 根据截断式的性质,P(t|x)=1:P(y,x|do(t)) &= P(y|t,x)*P(x) \\ 边际化 x:P(y|do(t)) &= \sum_x P(y|t,x)*P(x) \\ \end{aligned} P(y,t,x)P(tx)=1P(y,xdo(t))xP(ydo(t))=P(x)P(tx)P(yt,x)=P(yt,x)P(x)=xP(yt,x)P(x)

P ( y ∣ t , x ) ∗ P ( x ∣ t ) = P ( y ∣ t , x ) ∗ P ( x ∣ t ) ∗ P ( t ) P ( t ) = P ( y , t , x ) P ( t ) = P ( y , x ∣ t ) ∗ P ( t ) P ( t ) = P ( y , x ∣ t ) = ∑ x P ( y ∣ t , x ) ∗ P ( x ∣ t ) = ∑ x P ( y , x ∣ t ) = P ( y ∣ t ) \begin{aligned} P(y|t,x)*P(x|t) &=\frac {P(y|t,x)*P(x|t)*P(t)}{P(t)} =\frac {P(y,t,x)}{P(t)} \\ &=\frac {P(y,x|t)*P(t)}{P(t)}=P(y,x|t) \\ &=\sum_x P(y|t,x)*P(x|t) = \sum_x P(y,x|t) \\ &= P(y|t) \end{aligned} P(yt,x)P(xt)=P(t)P(yt,x)P(xt)P(t)=P(t)P(y,t,x)=P(t)P(y,xt)P(t)=P(y,xt)=xP(yt,x)P(xt)=xP(y,xt)=P(yt)

  • P ( y ∣ t ) P(y|t) P(yt) P ( y ∣ d o ( t ) ) P(y|do(t)) P(ydo(t))的区别在与一个是乘以 P ( x ∣ t ) P(x|t) P(xt),一个是乘以 P ( x ) P(x) P(x)
  • P ( y ∣ t ) P(y|t) P(yt)表示相关性, P ( y ∣ d o ( t ) ) P(y|do(t)) P(ydo(t))表示因果性,由于confounder X X X的存在,相关性 ≠ \neq =因果性
  • 如果切断 x x x t t t之间的联系,那么 P ( x ) = P ( x ∣ t ) P(x) = P(x|t) P(x)=P(xt)

2.3 后门调整(Backdoor Adjustment)

和2.2节同样的DAG图,推导后门调整公式:
P ( y ∣ d o ( t ) ) = ∑ x P ( y ∣ d o ( t ) , x ) ∗ P ( x ∣ d o ( t ) ) = ∑ x P ( y ∣ t , x ) ∗ P ( x ∣ d o ( t ) ) = ∑ x P ( y ∣ t , x ) ∗ P ( x ) \begin{aligned} P(y|do(t)) &= \sum_x P(y|do(t),x)*P(x|do(t)) \\ &= \sum_x P(y|t,x)*P(x|do(t)) \\ &= \sum_x P(y|t,x)*P(x) \end{aligned} P(ydo(t))=xP(ydo(t),x)P(xdo(t))=xP(yt,x)P(xdo(t))=xP(yt,x)P(x)

  • 第1个等号:
    ∑ x P ( y ∣ d o ( t ) , x ) ∗ P ( x ∣ d o ( t ) ) = ∑ x P ( y ∣ d o ( t ) , x ) ∗ P ( x ∣ d o ( t ) ) ∗ P ( d o ( t ) ) P ( d o ( t ) ) = ∑ x P ( y , d o ( t ) , x ) P ( d o ( t ) ) = ∑ x P ( y , x ∣ d o ( t ) ) ∗ P ( d o ( t ) ) P ( d o ( t ) ) = ∑ x P ( y , x ∣ d o ( t ) ) = P ( y ∣ d o ( t ) ) \begin{aligned} \sum_x P(y|do(t),x)*P(x|do(t)) & = \sum_x \frac{P(y|do(t),x)*P(x|do(t))*P(do(t))}{P(do(t))} \\ &= \sum_x \frac{P(y,do(t),x)}{P(do(t))} \\ &= \sum_x \frac{P(y,x|do(t))*P(do(t))}{P(do(t))} \\ &=\sum_x P(y,x|do(t)) = P(y|do(t)) \end{aligned} xP(ydo(t),x)P(xdo(t))=xP(do(t))P(ydo(t),x)P(xdo(t))P(do(t))=xP(do(t))P(y,do(t),x)=xP(do(t))P(y,xdo(t))P(do(t))=xP(y,xdo(t))=P(ydo(t))
  • 第2个等号:
      because y blocks all backdoor paths from t to y, the only association flowing from t to y is causal association. so we can remove d o ( t ) do(t) do(t) in the factor for y
  • 第3个等号:
      简单理解就是根据后门准则,给定了 x x x,切断了 t → x → y t \rightarrow x \rightarrow y txy这条路,使得只有 t → y t \rightarrow y ty这一条路,而这条路是我们想获得的causal association.
    消除 d o ( t ) do(t) do(t)是因为:1. d o ( t ) do(t) do(t)切断了 T T T的parents,没有in-edge association流向 T → W T \rightarrow W TW; 2. 如果存在association则为T 的 out-edge association,则会与Y形成一个collider,association 被 collider 切断。所以T与W独立。下面举个例子,切断 C → T C \rightarrow T CT的连接,C,T,Y形成collider,由于Y未观测,C和T独立

另一种证明方法
这种证明的方法一个重点是 P m P_m Pm分布和 P P P一样了???

参考资料

链式法则&有向图因式分解公式
d-separation
后门调整参考1
后门调整参考2
primer-ch3.pdf
概率图
因果推断总结

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值