因果推断

因果推断模型综述

最近在读一篇论文:Runge, J., Bathiany, S., Bollt, E., Camps-Valls, G., Coumou, D., Deyle, E., … & van Nes, E. H. (2019). Inferring causation from time series in Earth system sciences. Nature communications, 10(1), 1-13. 对论文内容进行整理,并记录一下自己的收获。

注:本人非数理统计/计算机/金融领域专业人员,以下可能存在不严谨之处,因此仅供参考。

论文摘要

The heart of the scientific enterprise is a rational effort to understand the causes behind the phenomena we observe. In large-scale complex dynamical systems such as the Earth system, real experiments are rarely feasible. However, a rapidly increasing amount of observational and simulated data opens up the use of novel data-driven causal methods beyond the commonly adopted correlation techniques. Here, we give an overview of causal inference frameworks and identify promising generic application cases common in Earth system sciences and beyond. We discuss challenges and initiate the benchmark platform causeme.net to close the gap between method users and developers.

科学事业的核心是努力理性地理解我们所观察到的现象背后的原因。在诸如地球系统这样的大型复杂动力系统中,真实实验很少可行。然而,越来越多的观测和模拟数据开辟了新的数据驱动的因果关系方法的使用,超越了通常采用的相关性的方法。在这里,我们概述了因果推理框架,并确定了在地球系统科学及其他领域常见的通用应用案例。我们讨论挑战并启动基准平台causeme.net,以缩小方法用户和开发人员之间的差距。

一、因果推断方法综述

介绍常见的四类因果推断方法

1. 格兰杰因果关系

格兰杰因果检验(Granger Causal Relation Test)为2003年诺贝尔经济学奖得主克莱夫·格兰杰(Clive W. J. Granger)所开创,用于分析经济变量之间的格兰杰因果关系。在时间序列情形下,两个经济变量X、Y之间的格兰杰因果关系定义为:若在包含了变量X、Y的过去信息的条件下,对变量Y的预测效果要优于只单独由Y的过去信息对Y进行的预测效果,即变量X有助于解释变量Y的将来变化,则认为变量X是引致变量Y的格兰杰原因。

1.1 具体步骤
参见:https://blog.csdn.net/luciazxx/article/details/44224145

1.2 局限
格兰杰因果检验作为最早的因果关系检验模型(之一),得到了广泛的应用。但是对于格兰杰因果关系,也存在众多争议。比如格兰杰因果关系到底是不是真实的因果关系。目前的一些研究认为,格兰杰因果检验更多的只是反应变量之间的以依赖性,或者叫时间上因果性:领先,滞后,还是同时发生,是统计意义上的因果,而非真正逻辑关系上的因果【1】。除此之外,传统的格兰杰因果检验不太适用于非线性动态系统,尤其是对一些不太强的耦合关系,无法成功检测【2】。

1.3 发展
格兰杰因果检验也有一些后续的发展,比如多元非线性格兰杰因果检验。相比于传统的格兰杰因果检验,具有更广的适用范围。在此不展开。

2. 非线性状态空间方法

George Suhihara 等人2012年在Science上发表了论文《Detecting Causality in Complex Ecosystems》【3】,其中提出了基于非线性状态空间重建的,主要用于对非线性系统进行因果关系分析的收敛交叉映射方法(Convergent Cross Mapping, CCM)【4】。

要想学习CCM方法,就要先了解一下非线性状态空间相关的一些知识背景。那么,这就是一个说来话长的问题了…

简单说来,关于人们认知世界的方式,存在着以下两种不同的观点:决定论与蝴蝶效应。前者认为一切现实的问题都是可以用定理、用公式、用数学和逻辑方法解释并准确的预测未来;而后者尽管并未否定科学理论与逻辑,但强调的却是带有对未来明显的不确定性与不可预测性的认知。这样的矛盾在漫长的前文艺复兴时期与文艺复兴之后科学体系草创之时还只是初露端倪。当技术(尤其是计算机技术)不断发展,实验设备与实验模式不断升级,计算能力不断提升,这种矛盾愈演愈烈。以至于20世纪以后,越来越多的学科开始抛弃僵化的决定论,混沌学理论应运而生。70年代,科学家们开创了混沌学理论,用于非线性复杂动力学系统(我把它理解为非线性状态空间)研究的现实需要,很快混沌学就突破了自然科学领域,成了几乎所有学科领域的科学实践的指导理论。 混沌学理论是一种多条件作用的、系统性的、非线性的、追求过程结果(而非决定论式追求终极结论)的、基于大量的演化计算而得到在某一特定时期系统所处的状态的思维模式,其代表模型就是洛伦茨吸引子。【5】(更多内容请参考原帖: https://www.jianshu.com/p/2e9d38466ab8)

混沌理论之父、美国气象学家爱德华·洛伦茨建立了一个可以展现混沌理论的最简建模:
在这里插入图片描述
将这个数学模型导入计算机进行演算,我们会发现一个神奇的现象——[X,Y,Z]的运动轨迹会呈现出这样的轨迹:
在这里插入图片描述
像一只蝴蝶,这也是蝴蝶效应的来源;有两个中心点,运动轨迹仿佛会不断地被这两个中心点吸引,因此成为吸引子。上图就是洛伦茨吸引子的图像展示。

2.1 CCM基本思想
回到正题,我们来介绍收敛交叉映射(CCM)算法的基本思想。首先,我们先简单介绍两个概念。
概念一:吸引子流形
在动态系统理论中,如果几个时间序列变量是动态耦合的,那么在拓扑学性质上,将在E维空间上代表着共同的d维( d ≤ E ) 随时间变化的吸引子 流形M( attractor manifold) 。

例如,由时序变量X,Y,Z组成的洛伦茨动态系统,在一个三维空间上代表着如下一个吸引子流形M。三个坐标轴分别表示三个变量X,Y,Z。整个动态系统随时间的变化轨迹(及[X,Y,Z]随时间变化的轨迹),呈现出如下轨迹,即洛伦茨吸引子。
在这里插入图片描述

概念二:影子流形
利用变量X的滞后坐标,就可以重建变量X的影子流形MX。Y同理。MX可以看作变量X在流形M上的投影。
在这里插入图片描述
原理描述:
CCM 因果检验方法认为,对于吸引子流形M 中的动态耦合变量X 与Y,MX 上附近的点与 MY 上附近的点在时间上是相对应的。因此,识别变量 X 与 Y 之间的因果关系,实际上是确定 MX 与 MY 在时间 上相对应的精确程度。 与传统的 Granger 因果检验不同,CCM 并不是通过估计“X 预测 Y”的能力来识别 X 是否是 Y 的原因。恰恰相反,CCM 方法认为,在非线性动力学系统中,响应过程一定包含触发过程的全部信 息,但触发过程或许并不是响应过程的唯一预测因素,因此观察响应过程比观察触发过程更具优 势。对于两个时间序列变量 X 与 Y,假设 X 为触发过程, Y 为响应过程,CCM 实际上是通过利用 Y 的历史值来估计 X 的状态,从而识别 X 是否会对 Y 产生影响。换言之,利用时间序列 X 与 Y 的滞 后坐标重建影子流形 MX 与 MY 之后,CCM 的核心思想在于确认 MY 上附近的点是否能够精确地 识别 MX 上附近的点。如果是,那么就可以说变量 X 是变量 Y 的原因。【4】

2.2 具体步骤
在这里插入图片描述

3. 因果网络学习算法

贝叶斯网络

4. 结构因果模型框架

未完待续

参考文献:
【1】陈雄兵, 张宗成. 再议 Granger 因果检验[D]. , 2008.
【2】Chen, Z., Xie, X., Cai, J., Chen, D., Gao, B., He, B., … & Xu, B. (2018). Understanding meteorological influences on PM 2.5 concentrations across China: a temporal and spatial perspective. Atmospheric Chemistry and Physics, 18(8), 5343.
【3】Sugihara, G., May, R., Ye, H., Hsieh, C. H., Deyle, E., Fogarty, M., & Munch, S. (2012). Detecting causality in complex ecosystems. science, 338(6106), 496-500.
【4】刘华军, & 雷名雨. (2019). 交通拥堵与雾霾污染的因果关系——基于收敛交叉映射技术的经验研究. 统计研究, 36(10), 43-57.
【5】Yahtar,简析混沌理论,简书,https://www.jianshu.com/p/2e9d38466ab8

  • 6
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值