因果关系和因果模型简要综述

1、因果关系和因果模型是什么

因果关系是指两个事件之间的相互作用关系,其中一个事件是因,另一个事件是果。事件因发生在事件果之前。因果关系具有概率性,即原因的发生会增加结果发生的概率,不是指原因一定会导致结果的发生。

因果模型是用于研究变量之间因果关系的工具。其关注的重点是变量之间的因果关系,即一个变量是如何影响另一个变量的。因果模型允许我们模拟在改变某些变量的情况下,对其他变量的影响。也就帮助我们了解某个变量(因素)在不同的条件下会发生什么。

2、因果模型的作用

传统的机器学习模型通常寻找变量之间的统计关系,即一个事件发生的一段时间内另一个事件的变化。例,广告费用与销售额的变化关系。而因果模型可以帮助我们发现事件之间的内在因果关系。即究竟是哪些事件的发生导致了这种结果。例,感冒吃感冒药。

由于因果模型真正洞察了变量之间的内在联系。因此,因果模型不仅可以帮助我们提高机器学习模型的泛化能力以及鲁棒性;还可以帮助我们了解在某种人为干预的情况下,会导致的结果;还可以帮助我们理解机器学习模型的决策过程,了解在模型是如何做出特定的预测。

3、因果模型的发展历程

3.1、Hempel

Hempel将因果关系从哲学领域推广至数学领域。其提出的第一个因果模型为演绎-律法解释(D-N)模型:一个需要被解释的事件称为explanandum,提供解释的事件称为explanans。其推论形式为:

\begin{matrix} C_{1},C_{2},...,C_{k}\\ \underline{L_{1},L_{2},...,L_{n}}\\ E \end{matrix}

其中,C_{1},C_{2},...,C_{k}代表不同的特定环境情况,L_{1},L_{2},...,L_{n}代表公理或法则,E为被解释项。即一系列的特定条件和公理(法则)会导致被解释项的发生。

第二个因果模型为归纳-统计解释(I-S)模型:一个随机实验发生后,产生了一个发生概率极高的事件。其推论形式为:

其中,R为随机试验,p为概率且很高,E为需要被解释的事件,双横线代表因果关系。I-S适用于统计性质的一般法则,将因果关系视为概率性质,概率反映了前提条件到结论的归纳强度。

其模型的局限性有:①在现实生活中,很难穷尽所有的相关因素至于解释方案内;②事件E本身发生的概率就非常高或非常低,很难确定其因果关系。

3.2、统计相关性解释模型(S-R)

其本质为:要确定效果E和潜在原因C之间的因果关系,必须至少比较两个概率(一个与C的存在有关,一个与C的缺席有关)。一个因素C在特定环境A下对E具有统计相关性,当且仅当:

P_{A}\left ( E\mid C \right )\neq P_{A}\left ( E \right )P_{A}(E\mid C)\neq P_{A}(E\mid \overline{C})

即在情况A下,E和C不是独立的。

如果P_{A}( E\mid C )> P_{A}( E )P_{A}(E\mid C)> P_{A}(E\mid \overline{C}),则C是积极因素;

如果P_{A}( E\mid C )< P_{A}( E )P_{A}(E\mid C)< P_{A}(E\mid \overline{C}),则C是消极因素。

但是仅凭上述概率关系,并不能建立因果连接,无论C的存在如何提高E发生的概率。

原因①:C和E之间的关系是对称的:P( E\mid C )> P( E )\Leftrightarrow P( C\mid E )> P( C ),而因果关系是不对称的。

原因②:在共同原因的情况下,事件E和事件C之间并不存在因果关系。例,事件C:冷锋来临,B:气压读数下降,A:降雨。A和B是高度相关,但是A和B并不存在因果关系,A和B都是C引发,在类似这种情况下,C为A和B的共同原因。其效果图和概率表示为:

这种图称为”连接叉“。

原因③:辛普森悖论,不要仅仅基于两个变量或变量集之间的真实依赖性就下结论。例如,可能存在一个总体上正相关,但在相同的个体自然分层内,相关性是负的。

3.3虚假原因

Suupes首先定义了一个时间顺序r<s<t,如果P(B_{s})>0并且P(A_{t}|B_{s})>P(A_{t}),那么B_{s}就是A_{t}的表面原因。先定义B_{s}A_{t}的表面原因,存在一个事件C_{r},使得P(B_{s}C_{r})>0并且P(A_{t}|B_{s}C_{r})=P(A_{t}|C_{r}),那么B_{s}就是A_{t}的虚假原因。

Supppes强调了时间顺序的重要性,他认为如果不考虑时间顺序,那么任何原因都可能被认为是虚假的。例,设r=sC_{r}=C_{s},若C_{s}=B_{s}B_{s}A_{t}的表面原因,P(B_{s})>0),那么P(A_{t}|B_{s}B_{s})=P(A_{t}|B_{s}),即每个原因都是虚假的。但这在实际情况中并不合理,仅仅依靠时间顺序和条件概率的比较不足以全面地识别虚假原因。

4、INUS条件

INUS(Insufficient but Necessary part of an Unnecessary but Sufficient cause)由哲学家J.L. Mackie提出,即一个不必要但充分的因中的不足但必需的部分。如果存在因素A和B,使得条件C是A或(B和C)的必需部分,但单独又不充分,那么我们可以说C是D的INUS条件。即D\Leftrightarrow A or (B and C),这意味着A和(B和C)都能单独导致结果D,但C本身不是充分的原因,除非与B结合。其概率公式为:

5、因子因果关系

因子因果关系:一个特定结果可能由多个因素的组合引起。这种模型允许我们考虑多种因素如何共同作用产生一个结果,而不是寻找单一的原因。

6、有向无环图(DAG)

有向无环图是最适合用来表示变量之间因果关系的图形模型。通常表示为G=(V,E),它由一组节点(V,代表变量)和一组有向边(E,代表变量间的因果关系)组成。DAG是无环的,意味着在图中不存在回到起点的路径。如果变量A通过一个箭头指向变量B(表示为A\rightarrow B),则表示A对B有直接影响,并且我们通常说A为是B的”父节点“,B是A的”子节点“;如果存在从A到B的路径,即使路径中包含其他节点,A也被称为B的“祖先”,B是A的“后代”。如果DAG中一个节点不存在父节点,则称这样的节点为外生变量,有父节点的变量则为内生变量。

图1

上图便是一个DAG,图中A,B节点便是外生变量,其他所有节点为内生变量。如若给定三个节点ABC,出现形如A\rightarrow B\leftarrow C的子图,那么称B为碰撞机(colliders)。图中节点D便为节点B,C的碰撞机。

6.1、DAG与概率密度

一个DAG可以分解为联合概率密度。一个简单的DAG可以表示为一系列条件概率的乘积,每个变量只依赖于其父变量。例,上图可以分解为:p(a,b,c,d,e,f)=p(a)p(b)p(c|a)p(d|b,c)p(e|d)p(f|d,e)。但是,联合概率密度并不能分解出DAG图中的有向边,即无法推断出因果关系。例:

\begin{matrix} B\rightarrow A\rightarrow C\\ \Rightarrow p(a,b,c) = p(b)p(a|b)p(c|a)=p(a.b)p(c|a)=p(a,b)p(a,c)/p(a)\end{matrix}

\begin{matrix} B\leftarrow A\rightarrow C\\ \Rightarrow p(a,b,c) = p(a)p(b|a)p(c|a)=p(a.b)p(c|a)=p(a,b)p(a,c)/p(a)\end{matrix}

两种不同的图模型可以用相同的概率密度表示。

6.2、DAG的马尔可夫性

马尔科夫性即随机变量之间的条件独立性。在DAG中每个变量在给定其父母的条件下与其非后代变量独立,这便是因果马尔可夫条件。也就是说当前的随机变量只和直接父节点有关,和父节点的父节点无关。

6.3、DAG与结构方程模型(SEM)

结构方程模型是一种分析变量之间关系的统计技术,它通过一组方程式来表达变量之间的直接效应和间接效应。在SEM中,每个变量是其父变量的函数。DAG可以图形化表示SEM中的结构关系,反之,也可以使用SEM中结构关系来表示DAG。例:

 

也可以由一组方程表示:X_{i}=f_{i}(pa(X_{i}),U_{i}),其中,f_{i}为函数关系,pa(X_{i})表示节点X_{i}的所有父节点,U_{i}表示节点X_{i}的误差项,这些变量为外生变量,相互独立。

6.4、干预

干预在因果推断中指的是对系统的某个部分进行人为的调整或改变。DAG与联合概率密度之间的连接强度比较弱(即,联合概率密度无法体现出DAG中的因果关系),但是通过干预,可以体现出概率中的因果关系。在概率中可以使用“%”来表示干预,例p(b\%a)=P(B=b|A\leftarrow a)表示对A实施干预,强行使其赋值为a的条件下,B取值为b的概率。其中,A\leftarrow a代表对A赋值为a的干预(也可以用do(A=a)表示)。对于图A\rightarrow B,分别对A,B进行干预,可以写为:\begin{matrix} p(b\%a)=P(B=b|A\leftarrow a)=P(B=b|A=a)=P(b|a) \\ P(a\%b)=P(A=a|B\leftarrow b)=P(A=a)=P(a) \end{matrix}

对于图1,如果对D实施干预将其赋值为d,其结构方程模型和修改后的图为:

\begin{matrix} C=f_{C}(A,U_{C}) \\ E=f_{E}(d,U_{E}) \\ F=f_{F}(d,E,U_{F}) \end{matrix}                  

干预演算在随机化实验和观察性研究中都很重要。在随机化实验中,干预是通过随机分配处理来进行的,而在观察性研究中,可能需要使用倾向得分或其他方法来模拟干预的效果。

参考:https://www.researchgate.net/publication/267239482_Causality_and_Causal_Models

  • 45
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值