【Causality】因果图入门

板砖板砖我是兔子

已于 2023-03-30 11:06:13 修改

阅读量5.5k

点赞数 8

CC 4.0 BY-SA版权

分类专栏： causality 文章标签：图论算法

于 2023-01-04 22:32:25 首次发布

本文链接：https://blog.csdn.net/qq_43749398/article/details/128089101

causality 专栏收录该内容

4 篇文章

订阅专栏

文章介绍了因果图的概念，强调了在决策过程中理解因果关系的重要性。因果发现是通过数据和先验知识重建因果对的过程，其中涉及到的算法需解决因果图的识别问题。D-separation和马尔可夫性是判断变量间因果关系的关键，而CPDAG则用于表示马尔科夫等价类。文章还讨论了结构因果模型和各种图的特性，如祖先图和部分祖先图在处理潜在混杂因素中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这部分主要讲了causal discovery的算法描述和图论相关表达。下一篇会整理intervention相关的理论，欢迎大家一起学习。

初始因果发现

了解系统中现象的规律实际上就是以因果的角度取建模变量间的内在联系。尤其在进行决策时，我们需要考虑干预（intervention）造成的潜在影响。实际上，一个研究的主要目的往往都是在评估一个“动作”（action）的影响，而不是关联性。因此，因果研究的过程时，往往也是将决策的影响划分为因果影响和非因果影响的过程。

当因果图（causal graph）未知时，我们则尝试用数据和先验知识来重现因果对（cause-effect pairs）。这种学习带有因果解释性的图结构的过程就称为因果发现（causal discovery），是因果的一个分支，是从数据中辨别和评价因果效应并且用因果图呈现的学科。

因果图用一条从因指向果的箭头表达因果性，在表达上非常有效。与深度学习算法不同，因果学习是数据驱动的方法，具有无与伦比的可解释性，能够让研究者对研究问题有更深的理解。

因果发现问题

因果发现问题可以描述为为给定的数据寻找一个因果图作为可能的因果关系解释。数学语言表示为设 $G$ 为数据集 $D$ 的变量集 $V$ 定义的一个图结构集， $G^* \in G$ 是数据集 $D$ 生成的真实的但是未知的图。

因果发现算法

我们说一个算法可以解决（solve）一个因果发现问题当且仅当它能够在现有的数据集和先验知识的情况下可以收敛至（converge to）真实的图 $G^*$ 。对于因果发现算法有很多的描述。我们认为一个算法是sound的当他可以解决一个因果发现问题；它是complete的当它能够找到最具信息量的因果图。而一个图是最具信息量（most informative）的当且仅当在没有提供其他信息的情况下，该图未确定方向的边无法确定方向，已经确定方向的边无法更改方向。一个算法是具有一致性（consistent）的当它输出的图对应的概率分布总是与输入的数据一致；是具有可识别性（identifiable）的当它能够决定因果图任意边的方向。但这是比较困难的，一般的因果学习算法可以在马尔可夫等价类（markov equivalence class）层面具有可识别性，而马尔科夫等价类的具体表达为CPDAG，这些在定义部分都会阐释。

因果图模型的相关定义

因果图

因果图是由因果关系组成的图结构表达，这也是与贝叶斯网络不同的地方。颠倒贝叶斯网络中的一个边也许会得到相同的概率分布，对于贝叶斯网络来说没有区别。但是对于因果图来说则是彻底改变了因果机制（变量间的因果关系）

因果边假设

因果图中每个变量X的值完全由一个关于其父变量的函数决定：
$\forall X \in V$

结构因果模型

也称为结构方程模型，由一个元组 $M = (V, U, F, P)$ ，其中：

$V$ 是内生的变量.
$U$ 是外生的变量，每个 $V$ 都有一个 $U$ 作为父变量;
$F$ 是一个函数集，其中的方程 $\in F:(V \cup U)^p \rightarrow V$ ,其中 $p$ 表示f的参数数量;
$P$ 是外生变量的概率分布假设.

马尔可夫性

一个图具有马尔可夫性，或者说可以做概率因子分解，当其对应的联合概率分布可以被递归分解为：
$\prod_{X \in V}P(X|Pa(X))$

D-faithfulness

当概率的独立性可以由图的独立性表达时，我们称图具有D-faithfulness，即
$X\perp _PY|Z \Rightarrow X\perp_GY|Z$ ,
其中Z是 $\setminus XY$ 的子集。

D-separation

用于测试对于任意忠实于因果图G的概率P，在给定Z的情况下，X是否条件独立于Y。具体表现为Z阻断了所有X和Y之间的路径。路径主要有以下几种形式：

$\leftarrow Z \rightarrow Y$ 是一个叉结构，
$\rightarrow Z \rightarrow Y$ 是一个链结构，
$\rightarrow Z \leftarrow Y$ 是一个对撞结构。

另 $\pi$ 表示X到Y的一个路径，则 $\pi$ 会被Z阻断当 $\pi$ 包含了：

叉结构 $\leftarrow Z \rightarrow Y$ 或链结构 $\rightarrow Z \rightarrow Y$ 且中间节点Z被观测，或
对撞结构 $\rightarrow Z \leftarrow Y$ 且中间节点Z及其子节点都未被观测。

如下图所示，当Z未被观测时，X和Y是独立的。而X与S想实现条件独立，必须观测Z。
在这里插入图片描述

CPDAG

Partially DAG既包含了有向边（directed edge）又包含了非有向边（undirected edge）。因此，PDAG可以将因果对与未知的因果关系区别开。

Skeleton 是将PDAG所有有向边转化为非有向边后的产物。V-structure则是一个元组 $\rightarrow Z \leftarrow Y$ ，其中X与Y不相邻。在PDAG中，v-structure解码了概率分布的条件独立。不可反向边(compelled edge)是任意边满足当该边逆转方向时，会增加或删除v-structure。其他边则称为可逆转边（reversible edge）。

等价类（equivalence class）的性质是设置任意非有向边的方向都不会导致概率分布的变化。

Observational markov equivalence 是指两个DAG G和H图应有相同的seleton和v-structure，记作 $G\equiv H$ ，意味着改变可转向边的方向虽然导致了不同的机构但是具有相同的因子分解。此时G和H属于同一马尔可夫等价类。

Completed PDAG（CPDAG），也称作essential graph或者最大有向图，是任意PDAG当所有的有向边都是不可反向边而所有非有向边都是可逆转边。CPDAG是马尔科夫等价类的通常表达。

下图是一个有向图及其等价类图。其中 $B\rightarrow D\leftarrow C$ 之间形成了对撞结构。 $\rightarrow B$ 和 $\rightarrow C$ 即使转变方向也不会出现新的v-structure，因此是可以转向边，需要变为undirected edge。 $D\rightarrow E$ 转变方向会出现新的v-structure $B\rightarrow D \leftarrow E$ 和 $C\rightarrow D \leftarrow E$ ，因此也是不可转向边（compelled edge），应为有向边。
在这里插入图片描述