ID algorithm: 一种快速给出计算任意干预分布p(Y|do(X))的算法

Jie Qiao

已于 2022-04-19 12:05:41 修改

阅读量509

点赞数

分类专栏：人工智能文章标签：算法概率论机器学习

于 2022-03-17 15:42:12 首次发布

本文链接：https://blog.csdn.net/a358463121/article/details/123551726

版权

人工智能专栏收录该内容

51 篇文章 16 订阅

订阅专栏

介绍

在这里我会介绍一种快速地计算干预后分布的通用识别算法。举个例子，相信大家都知道back-door准则，设有因果关系 $X\leftarrow Z\rightarrow Y$ 且 $X\rightarrow Y$ ，于是

$\begin{array}{ c c l } & p(do(x),y,z) & =p(z)\underbrace{p(do(x)|z)}_{=1} p(y|z,do(x))\\ \Longrightarrow & \sum _{z} p(do(x),y,z) & =\sum _{z} p(z)p(y|z,do(x))\\ \Longrightarrow & p(y|do(x))\underbrace{p(do(x))}_{=1} & =\sum _{z} p(z)p(y|z,do(x))\\ \Longrightarrow & p(y|do(x)) & =\sum _{z} p(z)p(y|z,x) \end{array}$

于是我们发现干预后分布 $\displaystyle p(y|do(x))$ 可以用观测数据 $\displaystyle \sum _{z} p(z)p(y|z,x)$ 来计算。这就是back-door公式了，它允许我们从纯粹的观察数据中得到干预后的分布。然而这个计算是依赖于给定的因果结构图的，而不同的结构会有不同的结果，甚至若是存在隐变量，比如图中的Z不可观测的话，那么分布 $\displaystyle P( y|do( x))$ 就是不可识别的。

那么有没有一种通用的，快速的识别以及计算方法呢？本文介绍一种快速识别的算法。

ID algorithm在2003年被提出用来解决这个问题的，但这个算法不太好懂，本文的思路基于2017年的文章，并基于fixing操作来求解这一问题。接下来我们都是假设因果图是已知的。

fixing and Marginalization操作

这里先介绍一种fixing操作，首先有这样的图

在这里插入图片描述

所谓fixing就是把该变量的入度边干掉，其实就是一种干预操作，比如下图就是将 $\displaystyle A_{1} ,A_{0}$ fix掉：

在这里插入图片描述

这样fix的操作其实本质上就是做了一个分布的变换：
$A_{0}) ,L_{1} ,do( A_{1}) ,Y) =\frac{p( A_{0} ,L_{1} ,A_{1} ,Y)}{p( A_{0}) p( A_{1} |L_{1} ,A_{0})}$
这是因为 $\displaystyle p( do( A_{0})) =1,p( do( A_{1}) |L_{1} ,A_{0}) =1$ ，除以这两个分布就相当于令他们等于1了，做了一个转换。

Districts and Fixing

更一般的情况是，给定一个因果网络，以及变量 $v=\{v_{1} ,...,v_{n} \}$ ，假设没有隐变量，对于分布 $p(v)$ ，可以进行概率分解：

$P(v)=\prod _{i} P(v_{i} |pa_{i} )$

那如果我们对其中某个 $\displaystyle v_{j}$ 进行干预，则意味着 $\displaystyle p( do( v_{j}) |Pa_{j}) =1$ ，于是，干预后的分布为
$P^{*} (v)=\prod _{i\in \{1,..,j-1,j+1,...,n\}} P(v_{i} |pa_{i} )=\frac{P(v)}{P(v_{j} |pa_{j} )} \tag{1}$

你会发现，一个干预后的分布其实就是简单地将 $\displaystyle p( v)$ 除以对应的干预的分布。但你可能会意识到，如果有隐变量，那么事情就没那么简单了，看下图

在这里插入图片描述

可以发现，每个district都是可计算的，我们总能够根据district对全概率进行分解，使得

$\begin{aligned} P( x_{1} ,x_{2} ,x_{3} ,x_{4} ,x_{5}) & =p( x_{1} ,x_{2}) p( x_{3} ,x_{4} |x_{1} ,x_{2}) p( x_{5} |x_{1} ,x_{2} ,x_{3} ,x_{4})\\ & =p( x_{1} ,x_{2}) p( x_{3} ,x_{4} |x_{1} ,x_{2}) p( x_{5} |x_{3}) \end{aligned}$

从而得到每一个district的概率分布。由此，我们可以推断，对于每一个district分布，如 $\displaystyle q( x_{3} ,x_{4} |x_{1} ,x_{2})$ 都相当于 $\displaystyle q( x_{3} ,x_{4} |do( x_{1} ,x_{2}))$ ，可以想象这个q可以将其余所有的q fix掉来得到的，从而只剩下 $\displaystyle x_{3} ,x_{4}$ 没有被fix.

然而，在有隐变量的时候，district内部的变量的fix要怎么计算是一个问题。因为district内部需要对隐变量u，v求和，无法简单的看做一个个 $\displaystyle P(v_{i} |pa_{i} )$ 。为此，我们需要推广fixing为：

$\phi _{r}( q( V|W) ;G) \equiv \frac{q( V|W)}{q( r|mb_{G}( r))}$

其中

$mb_{G}( r) =\left\{y\neq r|\left( r\leftarrow y\right) \ or\ ( r\leftrightarrow ...\leftrightarrow y) \ or\ \left( r\ \leftrightarrow ...\leftrightarrow \circ \leftarrow y\right)\right\}$

表示所有r的直接父母，以及所有与r以双向边连接的结点，以及双向边连接的结点的父母。这里用 $\displaystyle q$ 来表示每个district的分布，而且这样的操作就相当于对r做了fixing操作后所得到的分布， $\displaystyle \phi _{r}$ 表示了对r进行fix的操作。

然而，不是每一个结点都可以被fix的，为保证其可算，必须满足以下规则：

对于结点v，如果存在v的子代和v属于同一个district，则v是不可fix

这也是不叫干预而叫fixing的原因，是为了加以区分。

举个例子，在下图中

在这里插入图片描述

因为 $\displaystyle L_{1} ,Y$ 就形成一个district，所以 $\displaystyle L_{1}$ 是不可fix的，因为 $\displaystyle Y$ 是 $\displaystyle L_{1}$ 的子代，而且他们属于同一个district，另一方面 $\displaystyle A_{0} ,A_{1} ,Y$ 则是可fix的，因为它们要么没有双向边，要么没有子代。

Marginalization

那么既然我们fixing意味着一种可计算的分布转换，那么直观上，我就可以不停的fix，将分布转为我们的目标分布。比如我们目标是 $\displaystyle P( Y|do( A_{0} ,A_{1}))$ ，于是就想办法将图变成下图的形状。

在这里插入图片描述

然而你会发现仅仅使用fixing还不能得到这个图，因为fixing不能够将结点从图中“删去”，而Marginalization则定义了这种删除的操作，并且类似的，在满足它的要求下， Marginalization是可算的！具体要求如下：

对于考虑 $\displaystyle W\subseteq C$ ，W是C的某个子集，只要W是图 $\displaystyle G( C)$ 上的ancestral set，也就是 $\displaystyle W=an( W)_{G( C)}$ （意味着W集合中包含了所有W中的祖先），那么W就可以保留，然后其余的变量都可以被Marginalization:

$\ w Q [ C ] I f W i s a n c e s t r a l i n G ( C ) Q[\mathbf{W} ]=\sum _{\mathbf{c} \backslash \mathbf{w}} Q[\mathbf{C} ]\ \ \ If\ W\ is\ ancestral\ in\ G(\mathbf{C} )$

直观来看，一些根结点是可以保留的，它的那些子代可以被积分掉。有了这个，我们就能发现

在这里插入图片描述

这个图中的 $\displaystyle L_{1}$ 就可以被积分掉，因为 $\displaystyle \{A_{0} ,A_{1} ,Y\}$ 就构成了一个ancestral set（集合里的所有祖先都在这个集合里）. 积分掉之后我们就可以得到这个目标分布了：

在这里插入图片描述

Identifying causal effect via Fixing and Marginalization

我们就以这个作为例子，来讲解下这个算法：

在这里插入图片描述

首先,我们目标是 $\displaystyle p( Y|do( A_{0} ,A_{1}))$ ，那第一步先按照district进行概率展开：

$\begin{aligned} p( A_{0} ,L_{1} ,A_{1} ,Y) & =\sum _{u} P( Y|A_{1} ,u,A_{0}) P( L_{1} |A_{0} ,u) P( A_{1} |L_{1} ,A_{0}) P( A_{0})\\ & =q( Y,L_{1} |A_{0} ,A_{1}) q( A_{1} |L_{1} ,A_{0}) q( A_{0})\\ & =p( Y|L_{1} ,A_{0} ,A_{1}) P( L_{1} |A_{0}) P( A_{1} |L_{1} ,A_{0}) P( A_{0}) \end{aligned}$

接下来，我们先对 $\displaystyle A_{0} ,A_{1}$ fix，得到

$\begin{aligned} \phi _{A_{0}} \circ \phi _{A_{1}}( p( A_{0} ,L_{1} ,A_{1} ,Y) ,G) & =\frac{p( A_{0} ,L_{1} ,A_{1} ,Y)}{P( A_{1} |L_{1} ,A_{0}) P( A_{0})}\\ & =q( Y,L_{1} |A_{0} ,A_{1}) \end{aligned}$

于是， $\displaystyle q( Y,L_{1} |A_{0} ,A_{1})$ 将对应着以下图：

在这里插入图片描述

接下来，我们对 $\displaystyle L_{1}$ 作Marginalization：

$\sum _{L_{1}} q( Y,L_{1} |A_{0} ,A_{1}) =q( Y|A_{0} ,A_{1})$

联立上述结果，我们有

$A_{0} ,A_{1})) =q( Y|A_{0} ,A_{1}) =\sum _{L_{1}} q( Y,L_{1} |A_{0} ,A_{1}) =\sum _{L_{1}}\frac{p( A_{0} ,L_{1} ,A_{1} ,Y)}{P( A_{1} |L_{1} ,A_{0}) P( A_{0})}$

Example 2

再看一个例子

在这里插入图片描述

在这里我们是要求 $\displaystyle P( Y|do( X))$ ，我们先分解一下概率：

$\begin{aligned} P( X,Y,R,W) & =q( R|W) q( X,Y,W|R)\\ & =P( R|W) P( X,Y|W,R) P( W) \end{aligned}$

接下来我们的目标是 $\displaystyle q( Y|X)$ ，也就是

在这里插入图片描述

要实现这一点，我们第一步是fix R，使得

在这里插入图片描述

对应的分布为

$\phi _{R}( P( X,Y,R,W) ,G) =\frac{P( X,Y,R,W)}{P( R|W)} =q( X,Y,W|R) =P( X,Y|W,R) P( W)$

接下来，由于W不是X和Y的子代或者祖先，而X,Y则形成一个祖先集合，因此W可以被积分掉，于是

$\sum _{W} q( X,Y,W|R) =q( X,Y|R) =\sum _{W} P( X,Y|W,R) P( W)$

在这里插入图片描述

最后我们可以fix x

$\phi _{X}( q( X,Y|R) ,G(\{X,Y\})) =\frac{q( X,Y|R)}{q( X|R)} =\frac{q( X,Y|R)}{\sum _{Y} q( X,Y|R)} =\frac{\sum _{W} P( X,Y|W,R) P( W)}{\sum _{Y}\sum _{W} P( X,Y|W,R) P( W)}$

这就是我们的目标分布了，即

$=\frac{\sum _{W} P( X,Y|W,R) P( W)}{\sum _{Y}\sum _{W} P( X,Y|W,R) P( W)}$

Example 3: front door

这是个更复杂的例子

在这里插入图片描述

上图对应的是典型的front door graph，他的概率分解如下：

$\begin{aligned} P( X,M,Y) & =\underbrace{P( M|X)}_{D_{1}}\underbrace{\sum _{U} p( X|U) P( Y|M,U) P( U)}_{D_{2}}\\ & =q( M|X) q( X,Y|M)\\ & =P( M|X) P( Y|M,X) P( X) \end{aligned}$

我们的目标是找到 $\displaystyle P( Y|do( X))$ 的分布，可以发现，X,Y在这个图中不是直接相连，这一类分体可以将其分解为若干个干预分布的乘积：

$\begin{aligned} p( Y|do( X)) & =\sum _{m} P( M,Y|do( X))\\ & =\sum _{m} P( M|do( X)) P( Y|M) \end{aligned}$

可以发现，要求解这一个分布，我们需要识别出 $\displaystyle P( M|do( X))$ ，因为x在这里是不可fix的，所以我们需要先fix M再fix x，于是：

$=\phi _{X} \circ \phi _{M}( P( X,M,Y) ;G) =\frac{P( X,M,Y)}{q( M|X) q( X|Y,M)}$

显然， $\displaystyle q( M|X) =P( M|X)$ ，而

$=\frac{q( X,Y|M)}{q( Y|M)} =\frac{q( X,Y|M)}{\sum _{x} q( X,Y|M)} =\frac{P( Y|M,X) P( X)}{\sum _{x} P( Y|M,X) P( X)}$

于是，

$=\frac{P( X,M,Y)}{q( M|X) q( X|Y,M)} =\frac{q( X,Y|M)}{q( X|Y,M)} =\sum _{x} q( X,Y|M) =\sum _{x} P( Y|M,X) P( X)$

$\begin{aligned} p( Y|do( X)) & =\sum _{m} P( M|do( X)) P( Y|M)\\ & =\sum _{m} P( Y|M)\sum _{x} P( Y|M,X) P( X) \end{aligned}$

Finding Verma constraint via fixing

最后fixing这个工具还可以导出一种叫verma constraint的东西，看下图:

在这里插入图片描述

这个结构有个神奇的规律 $\displaystyle \sum _{b} p( b|a) \cdot p( d|a,b,c)$ 是一个跟a无关的函数！很神奇，因为里面有a的，但却与a无关，为什么会出现这样的事情？我们可以用fixing的方法来分析下这个图。

首先找district：

$\begin{aligned} & p(a,b,c,d)\\ & =\sum _{u} p(u)\cdot p(a)\cdot p(b\mid a,u)\cdot p(c\mid b)\cdot p(d\mid c,u)\\ & =p(a)\cdot p(c\mid b)\cdot \sum _{u} p(u)\cdot p(b\mid a,u)\cdot p(d\mid c,u)\\ & \equiv q (a)\cdot q (c\mid b)\cdot q (b,d\mid a,c)\\ & =p(a)\cdot p( b|a) \cdot p(c\mid b,a)\cdot p( d|a,b,c)\\ & =p(a)\cdot p(c\mid b)\cdot p( b|a) \cdot p( d|a,b,c) \end{aligned}$

接下来，我们考虑 $\displaystyle q (b,d\mid a,c)$ ，这个分布所对应的图就是(d)，在这个图中b与d互不成祖先关系，所以是可以都可以被积分掉，如果我们将b积分掉，则会得到以下图：

在这里插入图片描述

此时a与d不再相邻，因此

$\sum _{b} q (b,d\mid a,c)=q (d\mid c)$

这个就是我们所说的verma constraint，这意味着

$(d\mid c)=\sum _{b} q (b,d\mid a,c)=\sum _{b} p( b|a) \cdot p( d|a,b,c)$

在这样的分布中， $\displaystyle \sum _{b} p( b|a) \cdot p( d|a,b,c)$ 不是一个关于a的函数！从图上我们就能够很轻易的导出这一结论。利用这一系列的思想，我们就可以提出一种考虑了这一类verma constraint所定义出来的等价类结构，称为Nested Markov Properties，它由17年Thomas的论文中给出

参考资料

Richardson, Thomas S., et al. “Nested Markov properties for acyclic directed mixed graphs.” arXiv preprint arXiv:1701.06686 (2017).

Tian, Jin, and Judea Pearl. “On the testable implications of causal models with hidden variables.” arXiv preprint arXiv:1301.0608 (2012).

Jin Tian: Estimating Identifiable Causal Effects through Double Machine Learning

UAI 2015 Amsterdam Tutorial- Non-parametric Causal Models

An Introduction to Potential Outcomes, DAGs and Single-World Intervention Graphs

Jie Qiao

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ID algorithm: 一种快速给出计算任意干预分布p(Y|do(X))的算法

介绍在这里我会介绍一种快速地计算干预后分布的通用识别算法。举个例子，相信大家都知道back-door准则，设有因果关系X←Z→Y{\displaystyle X\leftarrow Z\rightarrow Y}X←Z→Y且X→Y{\displaystyle X\rightarrow Y}X→Y，于是p(do(x),y,z)=p(z)p(do(x)∣z)⏟=1p(y∣z,do(x))⟹∑zp(do(x),y,z)=∑zp(z)p(y∣z,do(x))⟹p(y∣do(x))p(do(x))⏟=1=∑zp(
复制链接

扫一扫

专栏目录