背景
很多科学都需要通过观测一组变量或者对其中一些变量进行干预试验,发现其中的因果关系,从而改造世界,对应于因果关系之梯的三个层级:观测,干预,反事实。通常情况下我们只有观测到的数据,传统的机器学习方法着重于对已观测数据的归纳总结,只是找出了变量之间的相关关系,训练出的模型也只能应对已观测过的情况,泛化能力不足以应对真实世界复杂的场景。如果想知道一个变量对另一个变量的影响,就需要做干预试验,最常用的有控制变量法和随机对照试验。控制变量法的最大缺陷在于无法确定变量控制的粒度,可能控制了不该控制的变量,没有控制应该控制的变量。随机对照试验则只关心假设的因果变量,其它变量都随机化处理,在期望情况下不影响因果变量之间的效应。但是干预试验都需要做大量的试验,可能在技术、伦理等方面不可行。因果发现就是要在已观测数据和少量甚至没有干预数据的情况下,发现变量之间的因果关系,以便推测当原因变量改变为未观测过的情况时,结果变量会是怎样的情况。
变量集中的因果关系对应于一个因果关系图,表示为有向无环图(DAG),顶点是变量,有向边从原因变量指向结果变量。
非时序因果模型
非时序变量因果图的建立主要包括确定变量间因果关系的存在性和因果方向的确立:首先检验各变量间的独立性,初步构建一个无向图;然后用基于约束的方法剔除其中不符合因果马尔科夫假设和因果忠诚性假设的连接;最后用结构方程模型确定因果方向,得到有向无环图,即为因果图。
因果充分性假设
当数据集中任意变量的直接原因变量都在该数据集中时,称该数据集是因果充分的。因果充分假设是因果发现与推断的基础。
两个变量之间的因果关系
如果两个变量是独立的,则它们必然没有因果关系;但如果它们不独立,则不能表明一定有因果关系,可能存在混杂因子,需要进一步通过假设检验进行筛选。例如,气温升高使人烦躁,也使金属变形,人的烦躁和金属的变形不存在因果关系,但有一定的相关性,气温升高就是其中的混杂因子。
基于约束的方法
基于约束的方法剔除因果关系图中不符合因果马尔科夫假设和因果忠诚性假设的边。
因果马尔科夫假设是指:对于因果充分变量集,已知父结点时,所有变量与它们的非后代结点相互条件独立。如下图所示,给定C的父结点A和D时,C与B、E都条件独立。
因果忠诚性假设是指:
基于约束的方法面临着马尔科夫等价类的问题,如下图所示,变量A,B,C之间的条件独立性关系是一样的,无法确定因果方向:
结构方程模型(Structural Equation Model,SEM)
因果方向确立的关键在于打破变量间的对称性,结构方程模型可以做到这一点。结构方程模型的一般形式为 Y = f ( X , ε ; θ ) (1) Y=f(X,\varepsilon;\theta)\tag{1} Y=f(X,ε;θ)(1)其中 θ \theta θ是函数 f f