推断因果关系理论（inferred causation）（下）

最新推荐文章于 2021-04-12 11:17:48 发布

苹果多酚

最新推荐文章于 2021-04-12 11:17:48 发布

阅读量3.1k

点赞数 3

分类专栏：因果关系（causality）文章标签：人工智能机器学习算法

本文链接：https://blog.csdn.net/weixin_43244928/article/details/105067120

版权

因果关系（causality）专栏收录该内容

2 篇文章

订阅专栏

本篇博客的内容主要是对Judea的Causality 一书中第二章五至八小节的内容进行梳理。

IC算法

归纳因果关系
IC算法以潜在的DAG D₀生成的稳定概率分布 $\ \hat P \,$ 作为输入，并输出一个表示D₀等价类的模式 $\ H(\hat P) \,$ 。

1、对于V中的每一对变量a和b，寻找集合S_ab，使得在 $\ \hat P \,$ 中，a和b条件独立于S_ab。构建一个无向图G，当且仅当S_ab不存在时，顶点a和b之间存在一条相连的边。
2、对于每一对非相邻，且有共同邻居c的变量a和b，检测c是否属于S_ab：

如果是，继续
如果不是，添加指向c的箭头（a->c<-b）

3、在得到的部分有向图中，为尽可能多的无向边确定方向，但要满足两个条件:

(i)不应创建新的v型结构;
(ii)不应形成定向循环。

（v结构：two coverging arrows whose tails are not connected by an arrow，大约是指chain、fork和collider三种？）

IC算法没有明确步骤I和步骤3的细节，为优化这两个步骤提出了一些改进。其中一个著名的改进为PC算法。Spirtes和Gly-mour（1991）在步骤1中提出了搜索集合S_ab的一般系统方法。首先构建所有顶点都相连的完整图，然后从基数为0的集合S_ab开始，接着是基数为1，依此类推，一旦发现分离，边就会递归地从完整图中移除。

IC算法的第3步可以通过多种方式系统化。Verma和Pearl（1992）表明，从任何模式开始，要获得最大方向的模式需要以下四个规则：
在这里插入图片描述
Meek（1995）证明了这四条规则是足够的，因此重复应用最终会将所有常见的箭头指向D₀的等价类。此外，如果起始方向仅限于v型结构，则不需要规则R4。

IC算法的第三步的另一个系统化方法是由Dor和Tarsi（1992）的算法提供的，该算法测试（在多项式时间内）给定的部分有向非循环图是否可以完全有向，而无需创建新的v-结构或有向循环。该测试基于递归删除具有以下两个属性的任何顶点v：

没有边是从v向外的;
通过无向边与v相连的v的每一个邻居节点也与v的所有其他邻居节点相邻。

一个部分有向无环图在DAG中有一个可容许的扩展当且仅当它的所有顶点都可以这样移除。因此，为了找到最大方向的模式，我们可以（i）对每个无向边a-b分别尝试两个方向a->b和a<-b，并且（ii）测试是否两个方向，或者仅仅一个方向，是否具有扩展。唯一可定向箭头的集合构成所需的最大定向模式。

对于每个潜在结构L，存在L在O上的一个依赖等价的潜在结构（L在0上的投影），其中每个未观察到的节点是一个根节点，正好有两个观察到的子节点。我们将这个概念明确地描述如下：

投影（projection）

在这里插入图片描述
投影是两个潜在结构之间的关系。关于上述定义中部分符号说明如下：

定理2.6.2：任何潜在结构至少有一个投影。

IC*算法

潜在变量的归纳因果关系
在这里插入图片描述
IC*算法取一部分的分布 $\ \hat P \,$ ，并输出一个带标记的部分有向图。

可以证明，在 $\ \hat P \,$ 的任何一个极小模型（minimal model）的一个投影中存在某个连接（link），必须表明 $\ \hat P \,$ 的每一个极小模型中都存在一个因果路径。因此，我们的研究缩小到寻找 $\ \hat P \,$ 的任何最小模型的特别的投影，并且识别合适的的连接（link）。值得注意的是，这些链接可以通过IC算法的一个简单变体（这里称为IC*）来识别，该算法采用分布P并返回一个标记的模式，这是一个部分有向非循环图，包含四种类型的边：
在这里插入图片描述
IC*的步骤1和步骤2与IC相同，但步骤3中的规则不同；它们不调整边的方向，而是将箭头添加到边的各个端点，从而适应双向边。

IC*算法的案例（洒水器）

在这里插入图片描述

1、此结构所包含的条件独立性可以使用d-分离标准读取，与这些独立性相对应的最小条件集由S_ad={b，c}，S_ae={d}，S_bc={a}，S_be={d}，S_ce={d}，IC*的步骤1产生图2.3（b）所示的无向图。
2、三元组（b，d，c）是唯一满足步骤2条件的，因为d不在S_bc中。因此，我们得到图2.3（c）的部分有向图。
3、步骤3的规则R1适用于三元组（b，d，e）和（c，d，e），因为b和e是不相邻的，并且d处有一个箭头来自b而不是e。因此，我们在e处添加一个箭头，并标记链接，以获得图2.3（d）。这也是IC的最终输出，因为此时R1和R2不再适用。

IC中link的含义：有些连接标记为单向的（表示真正的因果关系），有些是无标记的单向的（表示潜在的因果关系），有些是双向的（表示虚假的关联），有些是无方向的（表示仍不确定的关系）。

潜在原因（Potential Cause）

在这里插入图片描述
如果下列条件成立，变量X对另一个变量Y（即从 $\ \hat P \,$ 可得到的变量Y）具有潜在的因果影响。

在任何情况下X与Y都是相互依赖的。
存在一个变量Z和一个环境S，使得：

（i）在给定S的前提下，X和Z相互独立，和
（ii）在给定S的前提下，Z和Y相互依赖。

所谓“环境（context）S”，我们指的是一组与特定值相关的变量。

在下图中，变量b是变量d的潜在原因（X=b，Y=d，Z=c，S=a）
在这里插入图片描述

真正的原因（Genuine Cause）

在这里插入图片描述
一个变量X是另一个变量Y的真正原因，当存在一个变量Z使得以下任意一点成立：
1、X和Y在任何环境下都是相互依赖的，且存在一个环境S满足：
（i）Z是X的潜在原因（根据定义2.7.1），
（ii）给定S的条件下，Z和Y相互依赖，和
（iii）给定S∪X的条件下，Z和Y相互独立；
或
2、X和Y在条件1中定义的关系的可传递闭合中。

还是刚才那幅图：
在这里插入图片描述
令X=d，Y=e，Z=b，S= ∅，则满足条件1（i）~（iii），即d是e的真正原因。

虚假的联系（Spurious association）

在这里插入图片描述
两个变量X和Y之间是虚假的联系如果他们在某些环境（context）中是相互依赖的且存在两个其他变量（Z1和Z2）和两个环境（S1和S2）使得：
1、给定S1，Z1和X相互依赖，
2、给定S1，Z1和Y相互独立，
3、给定S2，Z2和Y相互依赖，
4、给定S2，Z2和X相互独立，

条件1和条件2使用Z1和S1来消除Y是X的原因，可以对照定义2.7.1的条件（i）-（ii）；条件3和条件4使用Z2和S2来消除X是Y的原因。这使得潜在共同原因成为观察到的X和Y之间依赖性的唯一解释，如结构所示Z1–>X<–>Y<–Z2型.

当时间信息可用时，定义2.7.2和2.7.3将大大简化，因为位于X之前且与X相邻的每个变量现在都符合X的“潜在原因”。此外，如果环境S在X之前被限制，则相邻（即2.7.1的条件1）的条件就不需要。这些考虑会导致更简单的条件来区分真实原因和虚假原因，如下所示：

具有时间信息的真实的因果关系

在这里插入图片描述
定义2.7.4其实与定义2.7.2是类似的，只是2.7.4中使用时间信息来确定Z是X的潜在原因。

具有时间信息的虚假的因果关系

在这里插入图片描述
通过研究刚刚给出的定义，我们发现所有因果关系都是从至少三个变量中推断出来的。具体地说，允许我们断定一个变量不是另一个变量的因果结果的信息以“不及物三元组”的形式出现。

例如，如果我们发现条件（S_ab），其中变量a和b分别与第三个变量c相关，但a和b彼此独立，那么第三个变量不能作为a或b的原因（回想一下，在稳定分布中，共同原因的存在意味着影响之间的依赖）；相反，c必须是它们的共同影响（a–>c<–b）或通过共同原因与a和b有关，形成一个模式，如a<–>c<–>b。这确实是允许IC*算法开始在图中确定边的方向（步骤2）和指定指向c的箭头的条件。也正是这种不及物模式，用于确定在定义2.7.1中，X不是Y的结果，在定义2.7.2中，Z不是X的结果。在定义2.7.3中，我们有两个不及物三元组（Z1，X，Y）和（X，Y，Z2），因此排除了X和Y之间的直接因果关系，这意味着虚假的联系是它们依赖性的唯一解释。

引入时间分析的原因
从非时态数据中确定因果影响的方向，引发了一些关于时间与因果解释之间关系的哲学问题。例如，根据定义2.7.2或定义2.7.4可指定变量X与Y之间的箭头的方向为X–>Y，但是这却与可用的时间信息产生冲突（比如随后的一项发现表明Y先于X）。由于定义2.7.4背后的基本原理是基于对因果关系统计方面的强烈直觉（例如，与某些因果关系无关），很明显，这种冲突如果发生，是相当罕见的。于是，问题就产生了：为什么仅仅由统计依赖性决定的因果方向与时间的流动有关？
（就是比如说X是Y的原因，但是Y却发生在X之前，听起来很违背直觉）
在人类话语中，因果解释满足两种预期：时间性和统计性（temporal and statistical）。时间方面表现为原因应优先于影响；统计方面希望有一个完整的因果解释来掩盖其各种影响（即使这些影响有条件地独立）；