Relating Graph Neural Networks to Structural Causal Models

最新推荐文章于 2024-08-01 14:24:05 发布

羊城迷鹿

最新推荐文章于 2024-08-01 14:24:05 发布

阅读量1.5k

点赞数 2

分类专栏：前沿智库因果推断文章标签：因果推断 GNN

本文为博主原创文章，未经博主允许不得转载，听见没。

本文链接：https://blog.csdn.net/jining11/article/details/120605197

版权

前沿智库同时被 2 个专栏收录

64 篇文章

订阅专栏

因果推断

19 篇文章

订阅专栏

该研究探讨了图神经网络（GNN）与结构因果模型（SCM）之间的理论关系，提出了基于GNN的神经因果模型类。利用变分推断，文章展示了如何在GNN中实施干预操作以进行因果推理。实验部分涉及因果效应估计与识别，验证了所提方法的有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

研究问题

论文从第一性原理出发推导了GNN和SCM之间的理论联系，并基于GNN定义了一种新的神经因果模型类

背景知识

变分推断

假设X为观察到的变量，Z为隐藏变量，变分推断的目标即后验分布p(Z|X)。首先需要提出一族关于隐藏变量的近似概率分布Q，从这一族分布中找到一个与真实的后验分布的KL Divergence最小的分布，即

$q^{*}(Z)=\arg \min _{q \in \mathcal{Q}} \mathrm{KL}(q(\mathbf{Z}) \| p(\mathbf{Z} \mid \mathbf{X}))$

根据贝叶斯准则， $p(\mathbf{Z}|\mathbf{X}) = \frac{p(\mathbf{X}, \mathbf{Z})}{p(\mathbf{X})}$ ，边缘化隐藏变量后可得 $p(\mathbf{X})=\int p(\mathbf{X}, \mathbf{Z}) d \mathbf{Z}$

上式满足如下关系，等式右边即为ELBO（第一项是个期望项，它促使模型将它的隐藏变量集中于可以解释观察量的配置上，第二项是隐藏变量变分分布与先验分布的KL divergence的相反数，它促使变分分布接近于先验分布，所以变分模型的目标函数是似然率与先验分布的一种平衡）：

$\begin{array}{r}\log p(\mathbf{X})-\operatorname{KL}(q(\mathbf{Z}) \| p(\mathbf{Z} \mid \mathbf{X}))= \mathbb{E}_{q}[\log p(\mathbf{X} \mid \mathbf{Z})]-\operatorname{KL}(q(\mathbf{Z}) \| p(\mathbf{Z}))\end{array}$

使用变分自编码器模型参数化 $p_{\boldsymbol{\phi}}(\mathbf{X}\mid \mathbf{Z})$ 和 $q(\mathbf{Z}):=q_{\boldsymbol{\theta}}(\mathbf{Z} \mid \mathbf{X})$

通过使用重要采样的技巧，可得 $p(\mathbf{X}) \approx \frac{1}{n} \sum_{i=1}^{n} \frac{p_{\boldsymbol{\phi}}\left(\mathbf{X} \mid \mathbf{z}_{i}\right) p\left(\mathbf{z}_{i}\right)}{q_{\boldsymbol{\theta}}\left(\mathbf{z}_{i} \mid \mathbf{X}\right)}$

图神经网络

一个GNN层将 $f\left(\mathbf{D}, \mathbf{A}_{G}\right)$ 将变量 $\left\{\mathbf{d}_{i}\right\}_{i=1}^{n} \mathbf{D} \in R^{d \times n}$ 和邻接矩阵 $\mathbf{A}_{G} \in[0,1]^{d \times d}$ 作为输入，其更新图表示的过程可以定义为 $\mathbf{h}_{i}=\phi\left(\mathbf{d}_{i}, \bigoplus_{j \in \mathcal{N}_{i}^{G}} \psi\left(\mathbf{d}_{i}, \mathbf{d}_{j}\right)\right)$

因果推断

一个结构因果模型SCM可以定义为 $\mathfrak{C}:=(\mathbf{S}, P(\mathbf{U}))$ ，其中 $P(\mathbf{U})$ 是外生未建模变量的乘积分布，S定义为d组结构方程的集合，结构方程表示如下，

$V_{i}:=f_{i}\left(\operatorname{pa}\left(V_{i}\right), U_{i}\right), \quad \text { where } i=1, \ldots, d$

其中 ${pa}(V_{i})$ 是变量 $V_{i}$ 在因果图 $G(\mathfrak{C})$ 上的父节点

$\mathfrak{C}$ 上的干预 $o(\mathbf{W}), \mathbf{W} \subset \mathbf{V}$ 定义为用新的非参数函数 $\mathbf{W}$ 替换 $\mathbf{W}$ ，从而得到新的SCM即 $\mathfrak{C}_{2}:=\mathfrak{C}^{\mathbf{d} o\left(\mathbf{W}=g_{\mathbf{W}}\right)}$ ，干预的一个重要属性是局部性，即