因果推断学习

专题系列

因果推断学习作为声称人工智能2.0的新研究方向,其真正吸引力在什么地方?这里建立一个专题,专门收录因果推断学习相关的理论基础,发展脉络与前言研究
首先从综述论文开始。
2020.11.27
来自大佬 Schölkopf, B 的综述论文

Schölkopf, B., “Causality for Machine Learning”, arXiv e-prints, 2019.

以下是全文翻译

摘要

朱迪亚·珀尔(Judea Pearl)首创的图形因果推理源于对人工智能(AI)的研究,长期以来与机器学习领域几乎没有联系。 本文讨论了当前已经或者应该建立的联系,介绍了研究道路上的关键概念。 它认为机器学习和人工智能的难题本质上与因果关系有关,并解释了该领域如何开始理解因果关系。

1 简介

近年来,机器学习领域对因果关系的兴趣显著增加。我对因果关系的理解是由朱迪亚·珀尔和一些合作者共同塑造的,其中大部分被写进了一本书,作者是Dominik Janzing和JonasPeters(Peters等人,2017年)。我在不同的场合谈过这个话题,并且一些观点正在进入机器学习主流的研究进程中,特别是因果建模可以更好的建立一致性与鲁棒性模型的观点。在因果关系和机器学习的交界处,有令人兴奋的发展,本文试图把我的想法写下来,并描绘一个更广阔的前景。我希望它不仅可以通过讨论因果思维对人工智能的重要性来发挥作用,而且还可以作为针对机器学习爱好者关于图论或结构因果模型的一些相关概念的介绍。

尽管最近取得了许多成功,但如果我们要比较机器学习与动物可以做什么,我们观察到前者在一些关键问题上并不擅长,但动物却很擅长。这包括向新问题的迁移,以及任何形式的泛化。即,不是从一个数据点到下一个数据点(从相同的分布中采样),而是从一个问题到下一个问题——两者都被称为泛化,但后者是一种更难的形式。机器学习的这一缺点并不是过分夸大,因为机器学习往往忽视那些动物大量使用的信息:外部干预(interventions)领域迁移(domain shifts)时间结构(temporal structure)。总的来说,我们认为这些因素是一种讨厌的因素,并试图将它们工程性忽略。最后,机器学习也不善于从Konrad Lorenz的意义上思考,即在想象的空间中行事。 我认为, 因果关系,其重点是对干预措施的建模和推理 ,可以对理解和解决这些问题作出重大贡献,从而使AI领域进入下一个层次。 我将主要使用非技术性语言进行描述,因为这一领域的许多困难都是概念性的。

2 信息处理机制

第一次工业革命始于18世纪末,由蒸汽机和水力发电引发。 第二次工业革命大约在一个世纪后开始,由电气化推动。如果我们总体上考虑它们,那么两者其实都是关于如何产生和转换能量的形式。 在这里,“产生”一词是在口语意义上使用的。在物理学中,能量是一个守恒的量,因此不能被创造,而只能从其他能量形式的转换中获得。有些人认为我们现在正处于另一场革命当中,称为数字革命、大数据革命和最近的人工智能革命。 然而,这一转变实际上是在20世纪中期以 控制论(cybernetics) 的名义开始的。它用 信息(information) 取代了能源。 像能源一样,信息可以被处理,但要在工业规模上做到这一点,我们需要发明计算机。为了更加智能地做到这一点,我们现在使用人工智能。和能源一样,信息实际上可能是一个守恒的量,我们可能只能转换和处理它,而不能无中生有 。当机器学习在工业中应用时,我们经常将用户数据转换为对未来用户行为的预测而获得收益。 收益最终可能是一种信息形式——与通过解密问题而产生比特币的想法别无二致。 第一次工业革命使能源成为一种普遍货币(Smil,2017);信息也可能发生同样的情况。

就像能源革命一样,人们可以说,目前的革命有两个组成部分:第一个是建立在电子计算机的出现、高级编程语言的发展和计算机科学领域的诞生上的,在通过使用符号语言来创造人工智能的愿景上产生的。 我们目前正在经历的第二个问题依赖于学习。它允许从非结构化数据中提取信息,并自动从数据中推断规则,而不是依赖人类来构思和编程这些规则。 虽然朱迪亚的方法源于经典人工智能,但他也是第一个认识到人类编程的硬规则存在一些局限性的人之一,从而引导了将经典人工智能与概率理论结合起来的道路(Pearl,1988)。这产生了图模型,这些模型被机器学习领域采用,但在很大程度上它们没有关注因果语义。 近年来,机器学习和因果关系之间出现了真正的联系,我们将认为,如果我们想在人工智能开放的主要问题上取得进展,这些联系是至关重要的。

当前,自动处理能量的手段的发明改变了世界。 它使人类劳动在某些领域成为多余的,并在其他领域催生了新的就业机会和市场。 第一次工业革命创造了围绕煤炭的工业,第二次工业革命创造了围绕电力的工业。 信息革命的第一部分是在此基础上创建电子计算和信息技术产业,第二部分是将信息技术公司转变为以“人工智能第一”,并围绕数据收集和“点击工作”创建了一个行业。虽然后者为当前人工智能、有监督的机器学习(Vapnik,1998年)的从业人员提供了有标签的数据,但人们可能预计,新的市场和行业将出现因果形式的定向或信息的干预,而不仅仅是依赖于统计。

能源和信息之间的类比是令人信服的,但我们目前对信息的理解是相当不完整的,就像前两次工业革命期间的能源概念一样。 现代对能量概念的深刻理解来自于数学家艾美·诺瑟,他理解能量守恒是由于物理学基本定律的对称性(或协方差):无论我们如何改变时间、现在、过去和未来,它们看起来都是一样的。爱因斯坦在建立能量和质量的等价性时,也依赖于协方差原理。在基础物理学家中,人们普遍认为,信息也应该是一个守恒的量,尽管这些也,特别是在宇宙学中,带来了某些难题。 人们可以推测,信息的守恒也可能是对称性的结果——这将是最有趣的,它将帮助我们理解不同形式的(现象学)信息是如何相互联系的,并定义一个统一的信息概念。下面我们将介绍一种不变/独立的形式,它可能能够在这方面发挥作用。从对称变换开始并通过它们在这些变换下的行为来定义物体的有趣想法不仅在物理上而且在数学上都是卓有成效的(Klein,1872;MacLane,1971)。

显然,数字商品在某些方面与实物商品不同,信息和能源也是如此。 纯数字商品可以以基本零成本复制(Brynjolfsson 等人,2019年),除非我们进入量子世界(Wootters和Zurek,1982年)。 另一方面,复制实物商品的成本可能与原件的成本一样高(例如一片黄金)。 在其他情况下,如果实物商品具有非平凡的信息结构(例如一台复杂的机器),复制它可能比原来的便宜。 在当前信息革命的第一阶段,复制软件是可能的,虽然该行业投入了大量精力来防止这种情况的发生。在第二阶段,复制扩展到了数据集,对于给定正确的机器学习算法和计算资源,其他人可以从数据集提取相同的信息。相比之下,能量只能使用一次。

就像第一次工业革命对技术、经济和社会产生了重大影响一样,目前的变化也可能如此。可以说我们的信息处理能力是人类在这个星球上统治地位的基础,因此也是人类对我们星球的主要影响的基础。由于它是关于信息处理的,因此目前的革命可能比前两次工业革命更有意义。我们应该努力较好地利用这些技术,以确保它们将有助于解决人类和我们星球的问题。这从能源的道德生成问题(例如环境问题)延伸到信息的道德生成问题(隐私、点击工作),一直延伸到我们如何被治理。 在信息革命的开始,控制论的斯塔福德·比尔(Stafford Beer)与智利阿连德政府合作建立控制论治理机制(Medina,2011年)。 当前在这场革命的数据驱动阶段,中国开始使用机器学习来观察和激励公民以一种有益的方式行事(Chen和Cheung,2018;Dai,2018)。很难预测这种发展会把我们带到哪里——这充其量是科幻小说,最好的科幻小说可能会提供关于这个话题的有洞察力的想法。

3 从统计模型到因果模型

由独立同分布(IID)数据驱动的方法

我们的领域在将机器学习应用于大数据问题方面取得了令人印象深刻的成功(LeCun等人,2015年)。在这些成功中,有多种趋势:(1)我们有大量的数据,通常来自仿真或大规模的人类标记;(2)我们使用高容量的机器学习系统(即具有许多可调参数的复杂函数类);(3)我们使用高性能计算系统,最后(经常被忽略,但在因果关系方面至关重要)(4)问题是IID(独立同分布)。 通常是以IID开头(例如,使用基准数据集进行图像识别),或者是人为地制作IID,例如通过仔细收集给定应用程序问题的正确训练集,或者通过DeepMind的“经验回放”(Mnih等人,2015年)等方法。DeepMind使用强化学习存储观测值,以便稍后将它们排列以进行进一步的训练。对于IID数据,应用统计学习理论的强通用性与一致性的结果,保证了学习算法收敛到最低风险。 这种算法确实存在,例如最近邻分类器和支持向量机(Vapnik,1998年;Scholkopf和Smola,2002年;Steinwart和Christmann,2008年)。 从这个角度来看,如果给出足够的数据,我们确实可以匹配或超越人类的表现,这是毫无疑问的。 然而,当机器面临违背IID假设,但对人类来说似乎微不足道的问题时,机器往往表现不佳。如果一个通常被高精度识别的对象被放置在可能与该对象存在负相关训练集中,则视觉系统可能会被严重误导。 例如,系统可能无法识别站在海滩上的牛。 更引人注目的是,“对抗脆弱性” 现象突出,表明即使是微小但有针对性的违反IID假设的行为,通过在图像中添加适当选择的噪声(人类无法察觉),也会导致危险的错误——如交通标志的混淆。 最近几年,“防御机制”和新的攻击之间出现了一场竞赛,这些攻击在不久之后出现,并重新肯定了这个问题。可以公平地说,目前的许多实践(解决IID基准问题)以及大多数理论结果(关于IID设置中的泛化)未能解决跨问题泛化这一硬开放问题。

为了进一步理解IID假设存在问题的方式,让我们考虑一个购物示例。 假设Alice正在互联网上寻找一款笔记本电脑背包(即一款带有笔记本电脑衬垫隔间的背包),网络商店的推荐系统建议她应该同时买一台笔记本电脑和一个背包。 这似乎很奇怪,因为她可能已经有一台笔记本电脑了,否则她一开始就不会找背包了。 在某种程度上,笔记本电脑是原因,背包是一种结果。 如果我被告知客户是否购买了笔记本电脑,这将减少我对她是否也购买了笔记本电脑背包问题的不确定性,反之亦然——而且它是相同的量级(互信息),因此因果的方向性就失去了。 然而,它存在于产生统计依赖的物理机制中,例如,使客户一旦拥有笔记本电脑就想购买背包的机制。 推荐一款商品的购买使我们在IID设置之外构成了对一个系统的干预。我们不再处理观测的分布,而是某些变量或机制发生变化的分布。这就是因果关系的领域。

Reichenbach(1956)明确阐述了因果关系和统计依赖之间的联系。 他假设了共同原因原理:如果两个可观察的X和Y在统计上是依赖的,那么就存在一个变量Z,它会影响这两者之间的因果关系,并解释所有的依赖关系,即当条件为Z时,使它们独立。 作为特例,这个变量可以与X或Y重合。假设X是鹳的频率,Y是人类出生率(在欧洲国家,据报道这些是相关的)。 如果鹳的到来会增加婴儿的出生率,那么正确的因果图是X→Y。 如果因为婴儿吸引鹳,它是X←Y。 如果有其他变量导致这两者(如经济发展),我们有X←Z→Y。

关键的问题是,如果没有额外的假设,我们就无法使用观测数据来区分这三种情况。在这三种情况下,X和Y上的观测分布类都是相同的。 因此,因果模型比统计模型包含的信息更多。

鉴于我们有两个可观察性变量的情况已经很困难,人们可能会怀疑更多可观察性的情况是否完全没有希望。令人惊讶的是,情况并非如此:在某种意义上,问题会变得更容易。原因是在这种情况下,因果结构隐含着非平凡的条件独立性属性(Spohn,1978;Dawid,1979;Geiger和Pearl,1990) 。这些可以通过使用因果图或结构因果模型的语言来描述,合并概率图形模型和干预的概念(Pearl,2009a;Spirtes等人,2000年),最好使用有向的函数式的父–子关系,而不是条件关系来描述。 虽然后一个看来概念上很简单,但前一个构成了理解因果关系的一个重要步骤,后来由Pearl(2009a,第104页表示):

我们讨论了用其对应的函数 X i = f i ( P A i , U i ) X_i = f_i(PA_i,U_i) Xi=fi(PAi,Ui)取代父-子关系 P ( X i ∣ P A i ) P(X_i|PA_i) P(XiPAi)的可能性,然后,突然间,一切都开始到位:我们终于有了一个数学对象,我们可以将物理机制的熟悉性质归因于物理机制,而不是那些难以认知的概率 P ( X i ∣ P A i ) P(X_i|PA_i) P(XiPAi),我们在贝叶斯网络的研究中已经工作了这么长时间。

结构因果模型(SCMs)

对于那些更习惯于从估计函数而不是概率分布来思考的机器学习研究人员来说,SCM观点是直观的。 在其中,我们得到了一组与有向无环图(DAG)G的顶点相关联的可观测值 X 1 , . . . , X n X_1,...,X_n X1...Xn(建模为随机变量)。我们假设每个可观测变量的都服从:
X i : = f i ( P A i , U i ) , ( i = 1 , . . . , n ) (1) X_i:=f_i(PA_i,U_i), (i = 1, . . . , n) \tag{1} Xi:=fi(PAi,Ui),(i=1,...,n)(1)
使用的确定性函数 f i f_i fi依赖于图中 X i X_i Xi的父函数(由 P A i PA_i PAi表示)和随机未知变量 U i U_i Ui。图中的有向边表示直接因果关系,因为父节点通过有向边连接到 X i X_i Xi,通过式(1)直接影响 X i X_i Xi的取值。 噪声 U i U_i Ui确保(1)式的全体对象可以表示为一般条件分布 p ( X i ∣ P A i ) p(X_i|PA_i) p(XiPAi),并假定噪声 U 1 , . . . , U n U_1,...,U_n U1,...,Un的集合是 联合独立(jointly independent) 的。 如果它们不是,那么根据 共因原理(Common Cause Principle),应该有另一个变量使它们产生依赖性,因此我们的模型将不满足因果充分。如果我们指定 U 1 , . . . , U n U_1,...,U_n U1...Un的分布,递归调用式(1),我们可以计算包含观测的联合分布 p ( X 1 , . . . , X n ) p(X_1,...,X_n) p(X1...Xn)。 这种分布具有从图中继承的结构性质(Pearl,2009a;Lauritzen,1996):它满足因果马尔可夫条件,说明以其父节点为条件,每个 X j X_j Xj都独立于其非后裔。直觉上,我们可以把独立的噪声看作是通过图传播的“信息探针”(就像流言中的独立元素可以通过社交网络传播一样)。 它们的信息被纠缠在一起,表现在条件依赖的迹中,从而有可能通过独立检测从观测数据中推断图形结构的各个方面。 就像在流言类比中,迹可能不足以确定一个独特的因果结构。 特别是,如果只有两个可观测性,则当然不是这样,因为任何非平凡的条件独立性语句至少需要三个变量。

在过去的十年中,我们研究了两个变量问题。我们认识到,它可以通过作出额外的假设来解决。因为不仅图拓扑在观测分布中留下了迹,而且函数 f i f_i fi也这样。对于机器学习来说,这一点很有趣,其中非常关注函数类的属性(例如先验或容量度量),我们将在下面讨论它。 在这样做之前,我们注意到式(1)的另外两个方面。 首先,SCM语言通过修改任务(1)的子集直截了当地将 干预 形式化为操作,例如将 U i U_i Ui更改,或将 f i f_i fi (从而 X i X_i Xi )设置为常量(Pearl,2009a;Spirtes等人,2000年)。 第二,图形结构以及噪声的联合独立性意味着式(1)所引起的联合分布的典型因式分解成为因果条件,我们将称之为因果(或分离)因式分解
p ( X 1 , . . . , X n ) = ∏ i = 0 n p ( X i , P A i ) (2) p(X_1, . . . , X_n) = \prod_{i=0}^{n}p(X_i,PA_i) \tag{2} p(X1,...,Xn)=i=0np(Xi,PAi)(2)
虽然许多其他因果分解是可能的,例如,
p ( X 1 , . . . , X n ) = ∏ i = 0 n p ( X i ∣ X i + 1 , . . . , X n ) (3) p(X_1, . . . , X_n) = \prod_{i=0}^{n}p(X_i|X_{i+1},...,X_n) \tag{3} p(X1,...,Xn)=i=0np(XiXi+1,...,Xn)(3)
方程(2)是唯一一个将联合分布分解为与结构任务(1)相对应的条件分布。我们认为这些是因果机制,并与所有具有统计依赖的变量相关。 因此,与(3)式相反,因果分解代表了作为因果机制的产物的联合分布。
统计学习的概念基础是一个联合分布 p ( X 1 , . . . , X n ) p(X_1,...,X_n) p(X1...Xn)(其中一个 X i X_i Xi通常是响应变量,用Y表示),我们对用于近似的函数类进行假设,例如回归 E ( Y ∣ X ) E(Y|X) E(YX)。 因果学习考虑了更丰富的假设类别,并探索联合分布具有因果因式分解的事实(2)。它涉及因果条件 p ( X i ∣ P A i ) p(X_i|PA_i) p(XiPAi)(即(1)中 U i U_i Ui的分布与函数 f i f_i fi),这些条件如何相互关联,以及对它们的干预或改变, 我们将在下面提及。

4 因果模型的层级

由于受过物理学训练,我喜欢把一组耦合微分方程看作是模拟物理现象的黄金标准。 它允许我们预测系统的未来行为,对系统中干预的效果进行推理,并通过适当的平均方法来预测由耦合时间演化产生的统计依赖。它还使我们能够洞察一个系统,解释它的功能,特别是读出它的因果结构:考虑耦合的微分方程组
d x / d t = f ( x ) , x ∈ R d , (4) d \pmb{x}/dt = f(\pmb{x}), \pmb{x} ∈ R_d, \tag{4} dxxx/dt=f(xxx),xxxRd,(4)
初始值 x ( t 0 ) = x 0 \pmb{x}(t_0)=\pmb{x}_0 xxx(t0)=xxx0。 Picard-Lindelof定理指出,至少在局部,如果 f f fLipschitz 的,则存在唯一解 x ( t ) \pmb{x}(t) xxx(t)。 这特别意味着, x \pmb{x} xxx 的近期前景由其过去的价值所暗示。

如果我们用无穷小微分 d t dt dt d x = x ( t + d t ) − x ( t ) d\pmb{x}=\pmb{x}(t+dt)-\pmb{x}(t) dxxx=xxx(t+dt)xxx(t) 正式写出这一点,我们得到:
x ( t + d t ) = x ( t ) + d t ⋅ f ( x ( t ) ) (5) \pmb{x}(t + dt) = \pmb{x}(t) + dt · f(\pmb{x}(t)) \tag{5} xxx(t+dt)=xxx(t)+dtf(xxx(t))(5)
由此,我们可以确定向量 x ( t ) \pmb{x}(t) xxx(t) 的哪些项对其他 x ( t + d t ) \pmb{x}(t+dt) xxx(t+dt) 产生影响,即因果结构。 这告诉我们,如果我们有一个物理系统,我们可以使用这样的常微分方程(4)建模,为 d x / d t d\pmb{x}/dt dxxx/dt 求解(即导数只出现在左手边),那么它的因果结构可以直接读出。

虽然微分方程是对系统的相当完整的描述,但统计模型可以被看作是一个更浅显的模型,它通常不考虑时间;相反,它告诉我们,只要实验条件不变,一些变量如何可以预测其他变量。例如,如果我们驱动一个具有某些类型噪声的微分方程系统,或者我们随着时间的推移平均,那么 x \pmb{x} xxx 的分量之间的统计依赖可能会出现,然后这些依赖可以被机器学习所利用。 这样的模型不允许我们预测干预的效果;然而,机器学习的优点是它经常可以从数据中学习,而微分方程通常需要一个聪明的人来想出它。 因果模型介于这两个极端之间,它旨在提供理解和预测干预的效果。 因果发现和学习在只使用弱假设的情况下试图以数据驱动的方式得出这样的模型。表1概述了总体情况,改编自Peters等人(2017)。

表1:模型的简单分类。 最详细的模型(顶部)是机械或物理模型,通常以微分方程描述。 在表的另一端(底部),我们有一个纯粹的统计模型;这可以从数据中学习,但它除了建模变量之间的关系外,往往提供了有限的视角。因果模型可以被看作是介于两者之间的描述,从物理事实中抽象,同时保留回答某些干预或反事实问题的能力,另见Mooij等人(2013年),物理模型和结构因果模型之间的正式联系

模型IID条件下预测转移/介入下的预测反直觉问题的回答获得物理视角从数据学习
机械/物理yesyesyesyes?
结构性因果关系yesyesyes??
因果关系图yesyesno??
统计学的yesnononoyes

5 独立因果机制

我们现在回到联合分布 p ( X 1 , . . . , X n ) p(X_1,...,X_n) p(X1...Xn)的因式分解(2)。 当 U i U_i Ui 是独立的时,根据因果图进行这种分解总是可能的,但是我们现在将考虑一个额外的独立概念,将(2)中的因素相互关联。我们可以使用一个称为Beuchet椅子的光学错觉非正式地介绍它,如图1所示。
图1:Beuchet椅子,由两个单独的物体组成,当从一个特殊的有利点观察时,这些物体就像椅子一样,其违反了物体和知觉过程之间的独立性。 (图片由Markus Elsholz提供,转载自Peters等人(2017)
图1:Beuchet椅子,由两个单独的物体组成,当从一个特殊的有利点观察时,这些物体就像椅子一样,其违反了物体和知觉过程之间的独立性。 (图片由Markus Elsholz提供,转载自Peters等人,2017)

每当我们感知一个物体时,我们的大脑就会假设物体及其反射光中包含的信息到达我们大脑的机制是独立的。 我们可以通过从偶然的角度看到物体可能违反这一点。如果我们这样做,感知可能会出错:在Beuchet椅子的情况下,我们感知到一张椅子的三维结构,而现实中却不存在。 上述独立假设是有用的,因为在实践中,它占据了认识过程的大部分时间,因此我们的大脑依赖于物体独立于我们的视角与光线。 同样,不应该有偶然的巧合,三维结构排列成二维结构,或者阴影边界与纹理边界相吻合。在视觉研究中,这被称为一般视角假设。 同样,如果我们围绕对象移动,我们的优势观点就会改变,这里我们假设总体生成过程的其他变量(例如,照明、对象位置和结构)不受此影响。 上述独立性所隐含的不变性,允许我们推断三维信息,即使没有立体视觉(“运动结构”)。 一个极端违反这一原则的例子是一个头部安装的VR显示器,跟踪感知者的头部位置,并相应地调整显示器。 这样的装置可以产生与现实不相对应的视觉场景的错觉。

另一个例子中,考虑一个由海拔高度A和气象站平均年温T组成的数据集(Peters等人,2017年)。 A和T是相关的,我们认为这是因为海拔高度对温度有因果关系。假设我们有两个这样的数据集,一个用于奥地利,一个用于瑞士。这两个联合分布可能是相当不同的,因为边缘分布 p ( A ) p(A) p(A)在高度上将不同。 然而条件分布 p ( T ∣ A ) p(T|A) p(TA)可能相当相似,因为它们描述了从海拔高度产生温度的物理机制。然而,如果我们只看整体的联合分布,而没有关于因果结构A→T的信息,我们就失去了感知这种相似性的能力。因果因式分解 p ( A ) p ( T ∣ A ) p(A)p(T|A) p(A)p(TA)将包含一个 p ( T ∣ A ) p(T|A) p(TA)部分,它在不同国家之间推广,而因式分解 p ( T ) p ( A ∣ T ) p(T)p(A|T) p(T)p(AT)将不会表现出这样的鲁棒性。 保守的说,当我们考虑系统中的干预时也是如此。为了正确预测干预效果的模型,它需要在从观察分布到某些干预分布的推广方面具有鲁棒性。 人们可以将上述见解表达如下(Scholkopf等人,2012年;Peters等人,2017年):

独立因果机制(ICM)原则 系统变量的因果生成过程由不相互作用或影响的自治模块组成。
这意味着在概率条件下,在给出每个变量的原因(即其机制)的条件下,其分布不会影响其他机制。

这一原则包含了对因果关系重要的几个概念,包括因果变量的单独可干预性、子系统的模块化和自主性以及不变性(Pearl,2009a;Peters等人,2017年)。 如果我们只有两个变量,它就会减少到原因分布和产生影响的分布机制之间的独立性。
应用因果因式分解(2)的原理告诉我们,影响因素应该在以下情况下是独立的:

  • (a) 改变(或干预)一个机制 p ( X i ∣ P A i ) p(X_i|PA_i) p(XiPAi)不会改变其他机制 p ( X j ∣ P A j ) ( i ≠ j ) p(X_j|PA_j)(i≠j) p(XjPAj)(i=j),以及
  • (b)知道一些其他机制 p ( X i ∣ P A i ) ( i ≠ j ) p(Xi_|PA_i)(i≠j) p(XiPAi)(i=j)不能给我们关于机制 p ( X j ∣ P A j ) p(X_j|PA_j) p(XjPAj)的信息。

因此,我们的独立概念包含两个方面:前者涉及影响,后者涉及信息。

我们认为任何现实世界的分布都是因果机制的产物。 这种分布的变化(例如,当从一个设置/域移动到一个相关的设置/域时)总是由于其中至少一个机制的变化造成的。 根据独立性原则,我们假设较小的变化往往以稀疏或局部的方式表现出来,即它们通常不应同时影响所有因素。 相反,如果我们考虑非因果因式分解,例如(3),那么当我们改变负责系统统计依赖的物理机制之一时,许多项将同时受到影响。 因此,这种分解可能被称为纠缠,这一术语在机器学习中越来越受欢迎(Bengio等人,2012年;Locatello等人,2018年a;Suter等人,2018年)。

在因果关系研究的历史上,不变、自主和独立机制的概念以各种形式出现。我们的贡献可能是将这些概念与信息独立性的思想统一起来,并表明人们可以使用相当普遍的独立性措施(Steudel等人,2010年),下文将介绍这一特殊情况(算法信息)。

机制依赖性的衡量标准      注意,两种机制 p ( X i ∣ P A i ) p(X_i|PA_i) p(XiPAi) p ( X j ∣ P A j ) p(X_j|PA_j) p(XjPAj)的依赖性与随机变量 X i X_i Xi X j X_j Xj的统计依赖性不一致。 事实上,在因果图中,许多随机变量将是依赖的,即使所有的机制都是独立的。

直观地说,独立噪声项 U i U_i Ui 提供并参数化不确定性,包含其的机制 p ( X i ∣ P A i ) p(X_i|PA_i) p(XiPAi) 是不确定的,从而确保每个机制都增加了一个独立的不确定性元素。 因此,我想把ICM原则看作是一个特例,它包含了SCM(1)中无法解释的噪声项的独立性。然而,它超越了这一点,如下所示。 考虑两个变量和结构赋值 X : = U X:=U X:=U Y : = f ( X ) Y:=f(X) Y:=f(X)。例如原因 X X X 是噪声变量(具有密度 p X p_X pX),影响 Y Y Y 是原因的确定性函数。此外,让我们假设 X X X Y Y Y 的范围都是 [ 0 , 1 ] [0,1] [0,1] f f f 是严格单调递增的。独立因果机制的原理然后简化到 p X p_X pX f f f 的独立性。让我们考虑 p x p_x px 和导数 f ′ f' f 作为概率空间 [ 0 , 1 ] [0,1] [0,1] 上带Lebesgue测度的随机变量,并利用它们的相关性作为机制依赖的度量。可以看出,对于 f ≠ i d f≠id f=id p X p_X pX f ′ f' f 的独立性意味着 p Y p_Y pY ( f − 1 ) ′ (f^{-1})' (f1) 之间的依赖性(见图2)。其他测度是可能且服从信息几何解释。 直观地说,在ICM假设下,效应分布的“不规则性”成为不规则性的总和,即它们由输入分布的不规则性或者由功能的引入不规则性,即两种机制的不规则性相加而不是相互补偿,这并不是在反因果方向上的情况(详情见Janzing等人,2012)。

算法独立性      到目前为止,我已经讨论了因果结构和统计结构之间的联系。 两者的基础是因果结构,因为它首先捕捉产生统计依赖的物理机制。 如果我们将无法解释的变量随机化,那么统计结构就是一种现象。谈论机制中包含的(统计)信息是很尴尬的,因为在一般情况下,确定性函数既不生成也不破坏信息。 这促使我们设计了一个基于Kolmogorov复杂性的因果结构的算法模型(Janzing和Scholkopf,2010年)。 位字符串的Kolmogorov复杂度(或算法信息)本质上是它在图灵机上最短压缩的长度,所以是其信息内容的测度。机制的独立性可以定义为消失的算法互信息。例如两个条件被认为是独立的,如果我们知道(最短的压缩)其中一个条件不帮助我们实现另一个条件的较短压缩。
在这里插入图片描述
图2:(来自Peters等人,2017)如果 f f f p x p_x px 是独立选择的,那么 p Y p_Y pY 的峰值往往出现在 f f f 具有小斜率和 f − 1 f^{-1} f1具有大斜率的区域。 因此, p Y p_Y pY 包含关于 f − 1 f^{-1} f1的信息。

算法信息理论为非统计图模型提供了一个自然的框架。就像后者是通过使无法解释的变量 U i U_i Ui 随机化,进而从结构因果模型中获得一样,我们通过使 U i U_i Ui 位字符串(跨节点联合独立)和将节点 X i X_i Xi 作为在输入 P A i PA_i PAi 上运行程序 U i U_i Ui 的固定图灵机的输出来获得算法图形模型。类似于统计案例,可以定义一个局部因果马尔可夫条件,一个全局的d-分离条件,并在类比式(2)中对联合Kolmogorov复杂度进行加性分解,并证明它们暗含于结构因果模型中(Janzing和Scholkopf,2010年)。这种方法的精妙之处在于,它表明因果关系并不受统计的内在约束,并且由于独立程序发挥了无法解释的噪声项的作用,因此噪声的独立性和机制的独立性现已重合。

算法独立机制的假设对物理学有耐人寻味的含义,因为它实际上意味着暗含热力学第二定律(即时间箭头)(Janzing等人,2016年)。 考虑一个过程,其中输入的有序粒子束(原因)被物体(机构)散射)。然后输出光束(效果)包含有关对象的信息。 这就是使视觉和摄影成为可能的原因:光子包含关于它们被散射的物体的信息。 现在我们从物理学上知道,从微观上讲,时间演化是可逆的。 然而,光子只有在散射之后才包含关于物体的信息。 为什么是这种情况,或者换句话说,为什么照片显示的是过去而不是未来?

原因是独立性原理,我们将其应用于初始状态和系统动力学,假设两者在算法上是独立的,即知道一个不允许对另一个进行更短的描述。 然后,我们可以证明,在时间演化下,系统状态的Kolmogorov复杂度是不递减的。 如果我们把Kolmogorov复杂度看作熵的度量,这意味着状态的熵只能保持不变或增加,相当于热力学第二定律,为我们提供了时间的热力学箭头。

请注意,这与动力学的微观不可逆性并不矛盾:时间演化后产生的状态显然与系统动力学无关:这正是当输入逆动力学时,我们将返回到原始状态,即有序粒子束的状态。 如果我们能够冻结所有粒子并瞬间逆转它们,我们就可以在不违反第二定律的情况下恢复到原来的配置。

6 因果发现

让我们回到从观测数据中发现因果关系的问题。 在适当的假设下,如忠实性(Spirtes等人,2000年),人们有时可以通过执行条件独立性测试从观测中恢复基础图的各个方面。 然而,这种方法有几个问题。 一个是,在实践中我们的数据集总是有限的,条件独立性测试是一个众所周知的难题,特别是如果条件集是连续的和多维的。 因此,原则上因果马尔可夫条件所隐含的条件独立性是正确的,而不管SCM中出现的函数的复杂性如何,对于有限数据集,条件独立性测试在没有附加假设的情况下是很困难的。另一个问题是,在只有两个变量的情况下,条件独立性的三元概念崩溃,因此马尔可夫条件没有非平凡的含义。

事实证明,这两个问题都可以通过对函数类进行假设来解决。 这是典型的机器学习,其中众所周知,在函数类上没有假设的有限样本泛化是不可能的。 具体来说,虽然有一些学习算法是普遍一致的,即在无限样本极限中的最小期望误差,对于数据中的任何函数依赖,在某些情况下,这种收敛是任意缓慢的。 因此,对于给定的样本大小,它将取决于正在学习的问题,我们是否实现了较低的预期误差,统计学习理论在衡量函数类的复杂性方面提供了概率保证(Devroye等人,1996年;Vapnik,1998年)。

回到因果关系,我们提供了一种直觉,为什么对SCM中的函数的假设应该是必要的,以便从数据中了解它们。 考虑一个玩具SCM,只有两个可观察的X→Y。 在这种情况下,(1)变成
X = U (6) X =U \tag{6} X=U(6)
Y = f ( X , V ) (7) Y =f(X,V) \tag{7} Y=f(X,V)(7)
U ⊥ V U \perp V UV。 现在考虑 V V V 作为一个随机选择变量,从一组函数中选择 F = { f v ( X ) ≡ f ( x , v ) ∣ v ∈ s u p p ( V ) } \mathcal{F}=\{f_v(X)≡f(x,v)|v∈supp(V)\} F={fv(X)f(xv)vsupp(V)} 。如果 f ( x , v ) f(x,v) f(xv) 以非光滑的方式依赖于 v v v,那么从有限的数据集中收集有关SCM的信息应该是很困难的,因为没有观察到 V V V,并且它在任意不同的 f v f_v fv 之间随机切换。这激发了限制 f f f 依赖 V V V 的复杂性。 一个自然限制是假设加性噪声模型
X = U (8) X =U \tag{8} X=U(8)
Y = f ( X ) + V (9) Y =f(X)+V \tag{9} Y=f(X)+V(9)
如果(7)中的 f f f 平稳地依赖于 V V V,如果 V V V 相对较好地集中,这可以由局部泰勒展开论证来驱动。它大大减少了函数类的有效大小——没有这样的假设,后者可以指数地依赖于 V V V 的支持基。

对函数类的限制不仅使从数据中学习函数变得更容易,而且在两个变量的情况下,它们可以打破因果之间的对称性:可以表明,给定由加性噪声模型生成的 X X X Y Y Y的分布,就不能将加性噪声模型与相反的方向(即 X X X Y Y Y的作用互换)(Hoyer等人,2009年;Mooij等人,2009年;Peters等人,2014年;Kpotufe等人,2014年;等人,2016年),以及(Sun等人的工作,2006)。这取决于某些泛型假设,值得注意的例外包括 U U U V V V是高斯的, f f f 是线性的情况。 它概括了Shimizu等人(2006)的结果。 对于线性函数,它可以推广到包括非线性重标度(Zhang和Hyvarinen,2009年)、循环(Mooij等人,2011年)、混淆(Janzing等人,2009年)和多变量设置(Peters等人,2011年)。

因此,对函数类的假设有助于解决因果推理问题。它们还可以帮助解决基于条件独立性测试的因果发现方法的其他弱点。 最近在(有条件)独立性测试方面的进展在很大程度上依赖于核函数类来表示复制内核Hilbert空间的概率分布(Gretton等人,2005a,b;Fukumizu等人,2008年;Zhang等人,2011年;Pfister等人,2018b;Chalupka等人,2018年)。

因此,我们收集了一些证据,表明机器学习的想法可以帮助解决以前被认为很难解决的因果关系问题。 然而,同样耐人寻味的是相反的方向:因果关系能帮助我们改进机器学习吗? 当今的机器学习(因此也是现代人工智能的大部分)是基于统计建模的,但随着这些方法的普及,它们的局限性变得越来越明显。 在一个简短的应用穿插之后,我将返回到这个问题。

7 半同胞回归(Half-Sibling Regression)与系外行星探测

下面描述的应用基于由加性噪声模型和ICM假设启发的因果模型。 幸运的是,它促成了最近天文学的突破,详见本节末尾。

美国宇航局开普勒太空望远镜于2009年发射,最初在四年内观测到15万颗恒星,以寻找系外行星。 这些事件中,行星部分地遮挡了它的主恒星,导致亮度略有下降,通常比仪器误差的影响小几个数量级。 当我们和纽约大学的合作者一起看恒星光曲线时,我们注意到,这些光曲线不仅非常嘈杂,而且噪声结构通常在相隔光年的恒星之间共享。 由于这使得恒星不可能进行直接的相互作用,很明显,共享信息是由于该仪器充当了混淆器。因此,我们设计了一种方法,(A)从所选择的一组大的其他恒星中预测一颗给定的感兴趣的恒星,使它们的测量不包含关于恒星天体物理信号的信息,(B)删除该预测,以消除仪器的影响。我们将该方法称为“半同胞”回归,因为目标和预测因子共有一个父方,即仪器。 对于加性噪声模型,该方法几乎肯定地恢复了表示所需信号的随机变量(高达一个恒定偏移),并假定仪器对恒星的影响原则上可以从其他恒星预测(Scholkopf等人,2016a)。

同时,开普勒航天器发生了技术故障,只留下两个运转正常的反应轮,不足以满足最初开普勒任务所要求的精确空间方向。 美国宇航局决定使用剩余的燃料进行进一步的观测,然而系统误差比以前大得多-这是我们设计的方法的天赐之物,它旨在准确地消除这些误差。 我们增加了系外行星过境模型和搜索光曲线的有效方法,从而发现了36个候选行星(Foreman-Mackey等人,2015年),其中21个随后被验证为真正的系外行星(Montet等人,2015年)。 四年后,天文学家在系外行星K2-18b的大气中发现了水的痕迹,这是系外行星在可居住区的首次发现,即允许液态水(Benneke等人,2019年;Tsiaras等人,2019年)。 这颗行星原来是在我们的工作中首次被发现的(Foreman-Mackey等人,2015年,系外行星候选EPIC201912552)。

8 不变性、鲁棒性和半监督学习

在2009年或2010年左右,我们开始对如何使用因果关系进行机器学习感兴趣。 特别是,“神经网络坦克城市传奇”中似乎有一些事情需要讨论。 在这个故事中,一个神经网络被训练来对坦克进行高精度的分类,但随后发现,它成功地将重点放在了一个特征(例如,一天的时间或天气)上,该特征只包含了由于数据收集过程而产生的坦克类型的信息。这种系统在不同情况下拍摄的新坦克上进行测试时不会显示出健壮性。我的希望是,一个包含因果关系的分类器可以在这种变化方面保持不变,这是我早些时候使用非因果方法的一个主题(Chapelle和Scholkopf,2002年)。 我们开始思考因果关系和协变量转移之间的联系,直觉认为因果机制应该是不变的,同样,任何分类器都建立在学习这些机制的基础上。 然而,许多机器学习分类器没有使用因果特征作为输入,事实上,我们注意到它们似乎更经常地解决了反因果问题,即它们使用结果的特征来预测原因。

我们与Dominik、Jonas、Joris Mooij、Kun Zhang、Bob Williamson等人进行了多次讨论,从2010年4月在Ringberg举行的部门会会议到2011年7月举行的Dagstuhl讲习班,在这些讨论中,我们关于不变性的思想逐渐成熟。 当我收到在神经信息处理系统会议上发表波斯纳演讲的邀请时,使他们得出某种结论的压力大大增加了。 当时,我参与了一个新的马克斯·普朗克研究所的成立活动,很难抽出足够的时间来取得进展。Dominik和我因此决定在黑森林度假屋呆一个星期全职工作,在2011年11月的那一周里,我们完成了一份名为invariable.tex的手稿草稿,在不久之后发表在arXiv(Scholkopf等人,2011年)。该论文认为,因果方向对于某些机器学习问题至关重要,可以预料到协变量偏移的鲁棒性(不变性),并且对于我们可以从原因预测影响的学习问题而言,转移更容易,并且对半监督学习的研究做出了重要的预测 。

半监督学习(SSL)
假设我们的底层因果图是X→Y,同时我们试图学习映射X→Y。 这种情况的因果因式分解(2)是
p ( X , Y ) = p ( X ) p ( Y ∣ X ) (10) p(X,Y)=p(X)p(Y|X)\tag{10} p(X,Y)=p(X)p(YX)(10)
ICM原则认为,联合分布的因果分解中的模块不会相互影响。 这尤其意味着, p ( X ) p(X) p(X) 不应包含任何有关 p ( Y ∣ X ) p(Y | X) p(YX) 的信息,这意味着SSL应该是徒劳的,因为它正在使用有关 p ( X ) p(X) p(X)的其他信息(来自未标记的数据) 改善我们对 p ( Y ∣ X = x ) p(Y | X = x) p(YX=x) 的估计。那么相反的方向呢,在相反情况下是否SSL应该是可以应用的? 事实证明,答案是肯定的,因为使用第5节中提到的独立因果机制进行因果推断的工作。 这项工作是与PovilasDaniusis等人一起完成的(2010)。它提出了一种衡量输入与给定输入的输出条件之间的依赖关系的方法,并表明如果这种依赖在因果方向上为零,那么它将在相反的方向上严格为正。 因此,因果方向上的原因和机制的独立性将意味着,在向后方向(例如反因果学习),输入变量的分布应包含关于给定输入的输出条件的信息,即机器学习通常关注的数量。我以前在SSL方面研究过(Chapelle等人,2006年),很明显,这正是SSL在试图通过使用未标记的输入来改进输出估计时所需要的那种信息。 因此,我们预测SSL对于因果学习问题应该是不可能的,但在其他情况下是可行的,特别是对于反因果学习问题。

我在波斯纳讲座中介绍了我们的分析和上述预测。 虽然前几年在会议上,特别是2008年的一次研讨会上,有一些与因果关系有关的活动(Guyon等人,2010年),但可以公平地说,Posner讲座帮助为因果关系进入机器学习主流铺平了道路。 朱迪亚肯定已经等待这一发展一段时间了,他在2012年3月给我发了一封亲切的电子邮件,说:“。。。我在尼普斯看了你的超级演讲视频。 简直是个奇迹。”

随后对已发表的SSL基准研究进行的元分析证实了我们的预测,并将其添加到arXiv的报告中,该论文被ICML勉强地接受(Scholkopf等人,2012年)。 我们对这些结果很感兴趣,因为我们觉得它们提供了一些关于学习问题物理性质的结构洞察力,从而超越了机器学习研究通常提供的应用或方法上的进步。这一工作提供了相当丰硕的成果(Zhang等人,2013年;Weichwald等人,2014年;Zhang等人,2015年;Gong等人,2016年;Huang等人,2017年;Blobaum等人,2016年;Guo等人,2018年;Wang等人,2019年;Subbaswamy等人,2018年;Rabanser等人,2018年;Li等人,2018年;Li等人,2018年b;Magliacane等人,2018年;Rojas-Carulla等人,2018年),与Elias Bareinboim和Judea的研究很好地互补(Bareinboim和Pearl,2014年;Pearl和Bareinboim,2015年)。 当乔纳斯搬到苏黎世去完成和捍卫他的博士学位。 在ETH的统计D.中,他坚持不变的思想,导致统计界利用不变性进行因果发现和其他任务的一系列工作(Peters等人,2016年;Pfister等人,2018年a;Heinze-Deml等人,2017年;Heinze-Deml和Meinshausen,2017年)。

在SSL方面,随后的发展包括进一步的理论分析(Janzing和Scholkopf,2015年;Peters等人,2017年,第5.1.2节)和一种有条件的SSL(vonKugelgen等人,2019年)。 将SSL视为利用边缘 p ( X ) p(X) p(X)和非因果条件 p ( y ∣ x ) p(y|x) p(yx)之间的依赖关系的观点与为SSL辩护所采用的共同假设是一致的(Chapelle等人,2006年)。聚类假设断言,标记函数(它是 p ( y ∣ x ) p(y|x) p(yx)的属性)不应在 p ( x ) p(x) p(x) 的簇内变化。 低密度分离假设假定, p ( y ∣ x ) p(y|x) p(yx) 取0.5的区域应该有小的 p ( x ) p(x) p(x);半监督平滑假设也适用于连续输出,它指出,如果高密度区域中的两个点是接近的,那么相应的输出值也是如此。 此外,请注意,该领域的一些理论结果使用了从因果图中众所周知的假设(即使它们没有提到因果关系):协同训练定理(Blum和Mitchell,1998)陈述了从未标记的数据中学习的可能性,并依赖于一个假设,即给定标签的预测标签,如果预测因子(仅)是由标签引起的,即反因果关系设置的,我们通常会期望这种假设。 这与上述发现非常一致。

对抗中的脆弱
人们可以假设因果方向也应该影响分类器是否容易受到对抗性攻击。 这些攻击最近变得流行起来,包括输入的微小变化,人类观察者看不见,但却改变了分类器的输出(Szegedy等人,2013年)。

这在几个方面与因果关系有关。 首先,这些攻击显然违反了作为预测机器学习基础的IID假设。 如果我们只想在IID设置中进行预测,那么统计学习就很好了。 然而,在对抗性设置中,修改后的测试示例并不是从与训练示例相同的分布中提取的:它们构成了优化的干预措施,以揭示 p ( y ∣ x ) p(y|x) p(yx)(反因果关系)的非鲁棒性。

对抗性现象还表明,当前鲁棒性分类器的表现形式与人类表现形式有很大的不同。 如果我们知道这两种鲁棒性度量,我们可以尝试最大化一个,同时最小化其他。 目前的方法可以看作是粗略的近似,有效地将人类的鲁棒性建模为一个数学上简单的集合,例如,半径 ϵ > 0 \epsilon>0 ϵ>0 l p l_p lp 球:他们经常试图找到导致分类器输出最大变化的例子,但要受到它们位于像素度量中的 l p l_p lp 球中的约束。 这也导致了对抗性训练的程序这在本质上类似于旧的方法,通过在“虚拟”样本上进行训练使分类器不变(Scholkopf和Smola,2002年 )。

现在考虑将我们的模型分解为组件(cf.(3))。 如果组件对应于因果机制,那么我们期望有一定程度的鲁棒性,因为这些机制是自然属性。 特别是,如果我们在因果方向上学习分类器,就应该是这样。 因此,人们可能假设,对于因果学习问题(从原因预测效果),对抗性的例子应该是不可能的,或者至少更难找到(Scholkopf,2017年;Kilbertus等人,2018年)。 最近的工作支持这一观点:研究表明,对抗攻击的一种可能的防御方法是通过建模因果生成方向来解决反因果分类问题,这种方法在视觉上被称为综合分析(Schott等人,2019年)。

更广泛地说,对于具有两个以上顶点的图,我们可以推测,由自治模块组成的结构,如因果因式分解(2)所给出的结构,对于交换或修改单个组件来说,应该是相对稳健的。 我们很快就会回到这里。

在研究战略行为时,稳健也应该发挥作用,即考虑到其他代理人(包括人工智能代理人)的行动的决定或行动。 考虑一个系统,基于一组特征,试图预测成功偿还信用的概率。 例如,该集合可以包括一个人的当前债务及其地址。 为了获得更高的信用评分,人们可以改变他们的当前债务(通过偿还),或者他们可以通过搬到一个更富裕的社区来改变他们的地址。 前者可能对偿还的概率产生积极的因果影响;而后者则不太可能。 因此,我们可以通过只使用因果特征作为输入来建立一个对这种战略行为更稳健的评分系统(Khajehnejad等人,2019年)。

多任务学习
假设我们要构建一个系统,可以解决多个环境中的多个任务。 这样的模型可以使用学习即压缩的观点。 基于训练集 ( x 1 , y 1 ) , . . . , ( x n , y n ) (x_1,y_1),...,(x_n,y_n) (x1y1)...(xnyn)学习函数 f f f 映射 x x x y y y,可以看作是 y y y 给定 x x x 的条件压缩。 我们的想法是,我们希望找到最紧凑的系统,给定 x 1 , . . . , x n x1,...,xn x1...xn,可以恢复 y 1 , . . . , y n y1,...,yn y1...yn 。 假设爱丽丝想把标签传达给鲍勃,因为他们都知道输入。首先,他们同意他们将使用一组有限的函数 F \mathcal{F} F。 然后爱丽丝从集合中选择最佳函数,并告诉鲍勃它是哪一个(所需的比特数将取决于集合的大小,并且可能取决于爱丽丝和鲍勃之间商定的先验概率)。 此外,她可能不得不告诉他函数没有正确分类的输入 x i x_i xi 的索引 i i i,即 f ( X i ) = y i f(X_i)=y_i f(Xi)=yi。在选择一个巨大的函数类(在这种情况下,对函数的索引进行编码将花费许多位)和允许太多的训练错误(这些错误需要单独编码)之间存在权衡。事实证明,这种权衡很好地映射到来自于统计学习理论(Vapnik,1995)的标准VC边界。人们可以想象将其推广到多任务设置:假设我们有多个数据集,从相似但不相同的SCM中采样。如果SCM共享大部分组件,那么我们可以通过编码SCM中的函数来压缩多个数据集(从多个SCM中采样),并且一个正确的结构(在两个变量的情况下,这相当于正确的因果方向)应该是最紧凑的结构,因为它将是一个在数据集之间共享许多函数的结构,因此只需要编码一次。

强化学习
将统计学习转向因果学习的程序与强化学习(RL)有联系,RL是机器学习的一个子领域。 RL过去是(而且经常是)被认为是一个应用于现实世界的高维数据有困难的领域,一个原因是,与监督学习中的标签信息相比,以强化信号的形式反馈是相对稀疏的。深度Q智能体(Mnih等人,2015年)产生了研究领域内当时不会认为可能的结果,但与活跃的信息相比,它仍然有主要的弱点。 两个主要方面可以用以下问题来说明(Scholkopf,2015年,2017年):

问题1:为什么原始高维ATARI游戏上的RL比下采样版本更难?

对于人类来说,降低游戏屏幕的分辨率会使问题变得更加困难,但这正是为了使深度Q系统工作所做的改进。 动物可能有方法识别物体(在电脑游戏语言中,“精灵”),根据“共同命运”(从格式塔心理学中知道)或对干预的共同反应对像素进行分组。 因此,这个问题与什么构成一个对象的问题有关,它不仅关系到感知,而且关系到我们如何与世界互动。我们可以捡起一个物体,但不是半个物体。 因此,对象也对应于可以单独干预或操纵的模块化结构。物体是由它们在转化过程中的行为来定义的这一观点不仅在心理学上,而且在数学上也是一个深刻的概念。 (克莱因(1872年);麦克莱恩(1971年))。

问题2:如果我们对重放的数据改变序列,为什么RL更容易?

当一个智能体在地图上移动时,它会影响它所看到的数据类型,因此统计数据会随着时间的推移而变化。 这违反了IID假设,如前所述,DeepQ智能体存储和重新跟踪过去的数据(作者认为类似于做梦的过程),以便能够使用标准的IID函数学习技术。 然而,时间顺序包含激活智能使用的信息。 信息不仅包含在时间顺序中,而且还包含在统计数据的缓慢变化有效地创建了多域设置中。 多域数据已被证明有助于识别因果(因此是稳健的)特征,更一般地,通过在搜索因果结构时寻找不变量(Peters等人,2017年)。这可以使RL智能体在其模型中找到健壮的组件,这些组件可能推广到状态空间的其他部分。 这样做的一种方法是使用基于模型的RL使用SCM,这一方法可以帮助解决在RL中混淆的问题,其中时变和时不变的未观察到的混淆影响行动和奖励(Lu等人,2018年)。 在这种方法中,非平稳性将是一个特征而不是一个bug,智能体将积极寻找与已知区域不同的区域,以挑战其现有模型并了解哪些组件是健壮的。 这种搜索可以被看作和潜在地分析为一种内在动机的形式,这是一个与伦理中的潜在学习有关的概念,在RL中得到了引申(Chentanez等人,2005年)。

最后,因果学习中的一个大的开放区域是与动力学的联系。 虽然我们可能天真地认为因果关系总是关于时间的,但大多数现有的因果模型并不(也不需要)谈论时间。 例如,回到我们的海拔和温度的例子,有一个潜在的时间物理过程,确保更高的地方往往更冷。 在所涉及的粒子的微观运动方程的水平上,有一个明确的因果结构(如上所述,微分方程精确地指定过去的值影响变量的当前值)。 然而,当我们谈论高度和温度之间的依赖或因果关系时,我们不必担心这个时间结构的细节-我们得到了一个不出现时间的数据集,我们可以解释如果我们对温度或高度进行干预,该数据集将是如何看的。思考如何在这些不同层次的描述之间建立桥梁是很有趣的。 在导出描述处于平衡状态并以“绝热”方式扰动的耦合系统的介入行为的SCMS方面取得了一些进展(Mooij等人,2013年),并将其推广到振荡系统(Rubenstein等人,2018年)。 简单的SCM在一般情况下应该是可导的,没有根本的原因。 相反,SCM是一个底层微分方程系统的高级抽象,只有当可以定义合适的高级变量时,才能导出这样的方程(Rubenstein等人,2017年),这可能是例外而不是规则。

与机器学习的主流相比,RL更接近因果关系研究,因为它有时有效地直接估计do-probability。例如,执行策略学习估计由策略指定的干预执行概率(注意,如果策略取决于其他变量,这些措施可能不是硬性干预措施)。 然而,一旦考虑到非策略学习,特别是在批处理(或观察)设置中(Lange等人,2012年),因果关系问题就变得微妙(Lu等人,2018年;Gottesman等人,2018年)。 最近有专门研究RL和因果关系这一领域的工作包括(Bareinboim等人,2015年;Bengio等人,2017年;Lu等人,2018年;Buesing等人,2018年;Dasgupta等人,2019年;Zhang和Bareinboim,2019年)。

9 因果表征学习

传统的因果发现和推理假设单元是由因果图连接的随机变量。 然而,现实世界的观测通常不会被构造成这些单元,例如图像中的物体(Lopez-Paz等人,2017年)。 因此,因果表示学习的新兴领域努力从数据中学习这些变量,就像机器学习超越了符号AI,不要求算法操作的符号被先验地给出(参见,博内和格夫纳(2019年))。 定义由因果模型相关的对象或变量可能相当于对世界上更详细的模型进行粗分级。在适当条件下,结构模型可以由微观模型的粗分级产生,包括微观结构方程模型(Rubenstein等人,2017年)、常微分方程(Rubenstein等人,2018年)和时间聚集时间序列(龚等人,2017年)。 虽然经济学、医学或心理学中的每一个因果模型都使用更基本概念的抽象变量,但要说明粗粒度变量承认具有明确干预措施的因果模型的一般条件是具有挑战性的(Chalupka等人,2015年;Rubenstein等人,2017年)。

识别承认因果模型的合适单元对人类和机器智能都具有挑战性,但它与现代机器学习的总目标一致,即学习数据的有意义表示,其中有意义的表示可以意味着健壮、可转移、可解释、可解释或公平(Kusner等人,2017年;Kilbertus等人,2017年;Zhang和Bareinboim,2018年)。 为了将结构因果建模(1)和表示学习相结合,我们应该努力将SCM嵌入到更大的机器学习模型中,其输入和输出可能是高维的和非结构化的,但其内部工作至少部分由SCM控制。 这样做的一种方法是在生成模型中将无法解释的变量实现为(潜在的)噪声变量。此外,请注意,SCMs和现代生成模型之间存在着自然的联系:它们都使用所谓的重新参数化技巧(Kingma和Welling,2013年),包括将期望的随机性作为(外生的)输入到模型中(在SCM中,这些是无法解释的变量),而不是内在的组件。

学习可迁移机制
复杂世界中的智能或非智能体都会面临着有限资源的问题。 这涉及到训练数据,即我们只对每个任务/领域有有限的数据,因此需要找到汇集/重复使用数据的方法,这与目前由人类进行的大规模标签工作的行业做法形成鲜明对比。 它还涉及计算资源:动物的大脑大小受到限制,进化神经科学知道许多大脑区域被重新定位的例子。 同样的尺寸和能量限制也适用于ML方法嵌入到可能是电池供电的(小)物理设备中。因此,未来的人工智能模型能够有力地解决现实世界中的一系列问题,因此很可能需要重用组件,这需要组件在任务和环境中具有鲁棒性(Scholkopf等人,2016b)。 这样做的一个优雅的方法是使用模块化结构,它反映了世界上相应的模块化。 换句话说,如果世界确实是模块化的,也就是说世界的不同组件在一系列环境、任务和设置中发挥作用,那么模型使用相应的模块是谨慎的(Goyal等人,2019年)。例如,如果自然光的变化(太阳、云的位置等。) 这意味着视觉环境可以出现在跨越几个数量级的亮度条件下,那么我们神经系统中的视觉处理算法应该使用能够考虑这些变化的方法,而不是为每个照明条件建立单独的人脸识别器集。 如果我们的大脑是通过增益控制机制来补偿照明的变化,那么这个机制本身就不需要与导致亮度差异的物理机制有任何关系。 然而,它将在模块结构中发挥作用,这与物理机制在世界模块结构中发挥的作用相对应。 这可能会产生对模型的偏见,这些模型对我们无法直接识别的世界表现出某些形式的结构同构,这将是相当有趣的,因为最终我们的大脑只会把神经元信号转化为其他神经元信号。

学习这种模型的一个明智的归纳偏见是寻找独立的因果机制(Locatello等人,2018b),竞争训练可以在这方面发挥作用:对于模式识别任务,Parascandolo等人。 (2018年)表明,学习包含独立机制的因果模型有助于在本质上不同的领域传输模块。 在这项工作中,手写字符被一组未知的机制扭曲,包括翻译、噪声和对比度反转。 神经网络试图通过一组模块来撤消这些转换,这些模块随着时间的推移专门针对每一种机制。对于任何输入,每个模块都试图产生校正后的输出,并使用鉴别器来判断哪一个执行得最好。 获胜模块通过梯度下降进行训练,以进一步提高其在该输入上的性能。 结果表明,最终的系统已经学习了翻译、反演或去噪等机制,这些机制也从其他分布(如梵文字符)转移到数据上。 最近已经采取了下一步,将一组动态模块嵌入到一个递归神经网络中,由所谓的注意机制协调(Goyal等人,2019年)。 这允许学习模块,其动态在大部分时间内独立运行,但偶尔相互交互。

学习去纠缠表征
我们先前讨论了ICM原理,这意味着(1)中SCM噪声项的独立性,从而讨论了解纠缠表示的可行性
p ( S 1 , . . . , S n ) = ∏ i = 0 n p ( S i ∣ P A i ) (11) p(S_1, . . . , S_n) = \prod_{i=0}^{n}p(S_i | PA_i) \tag{11} p(S1,...,Sn)=i=0np(SiPAi)(11)

以及条件 p ( S i ∣ P A i ) p(S_i|PA_i) p(SiPAi)在相关问题上是独立可操作和基本不变的性质。假设我们试图利用独立机制(11)从数据中重建这样的解缠表示,但是因果变量 S i S_i Si 并不是先验地提供给我们的。 相反,我们给出了(可能是高维的) X = ( X 1 , . . . , X d ) X=(X_1,...,X_d) X=(X1...Xd)(下面,我们认为 X X X 是一个像素 X 1 , . . . , X d X_1,...,X_d X1...Xd )的图像,我们应该从中构造因果变量 S 1 , . . . , S n ( n < < d ) S_1,...,S_n(n<<d) S1...Sn(n<<d)以及机制,cf.(1)
S i : = f i ( P A i , U i ) , ( i = 1 , . . . , n ) (12) S_i := f_i(PA_i, U_i), (i = 1, . . . , n) \tag{12} Si:=fi(PAi,Ui),(i=1,...,n)(12)

模拟 S i S_i Si之间的因果关系。 为此,作为第一步,我们可以使用编码器 q : R d → R n q:\mathbb{R^d→R^n} q:RdRn X X X 取到一个潜在的“瓶颈”表示,该表示包括无法解释的噪声变量 U = ( U 1 , . . . , U N ) U=(U_1,...,U_N) U=(U1...UN)。下一步是由结构赋值 f 1 、 . . . 、 f n f_1、...、f_n f1...fn确定的映射 f ( U ) f(U) f(U) 最后,我们应用解码器 p : R n → R d p:\mathbb{R^n→R^d} p:RnRd 。 如果n足够大,则可以利用重建误差对系统进行训练,以满足观测图像上的 p ◦ f ◦ q ≈ i d p◦f◦q≈id pfqid。 为了使其具有因果关系,我们使用ICM原理,即我们应该使 U i U_i Ui 在统计上独立,且我们应该使机制独立。这可以通过确保它们在问题上是不变的,或者它们可以被独立地干预:如果我们操纵其中的一些问题,它们仍然应该产生有效的图像,可以使用生成对抗性网络的鉴别器来训练这些图像(Goodfellow等人,2014年)。

虽然我们理想地操纵因果变量或机制,但我们讨论了干预潜在噪声变量的特殊情况。 一种干预方法是用从其他输入图像中计算的相应值替换噪声变量,这一过程被Besserve等人称为杂交 (2018b)。 在极端情况下,我们可以混合潜在向量,其中每个分量是从另一个训练示例计算的。 对于IID训练集,这些潜在向量通过构造具有统计独立的分量。

在这样的架构中,编码器是一种反因果映射,它识别或重建世界上的因果驱动程序。 因此,就这些机制而言,可以制定可转让的机制(例如跨任务)。 解码器建立了低维潜在表示(驱动因果模型的噪声)与高维世界之间的联系;这一部分构成了因果生成图像模型。 ICM假设意味着,如果潜在表示重构(噪声驱动)真实的因果变量,那么对这些噪声(以及由它们驱动的机制)的干预是允许的,并导致有效生成图像数据。

学习干预全局模型和推理
现代表征学习擅长于学习具有相关统计属性的数据(Bengio等人,2012年;LeCun等人,2015年)。 然而,它这样做时没有考虑到变量的因果特性,即它不关心它分析或重建的变量的干预特性。 我预计,今后因果关系将在将表征学习提升到下一个层次方面发挥主要作用。超越统计依赖结构的表示,转向支持干预、规划和推理的模型,实现Konrad Lorenz的思维概念,即在想象的空间中行事。最终,这需要具有反思自己的行动并设想替代方案的能力,可能有必要(幻想)自由意志(Pearl,2009b)。自我意识的生物学功能可能与在洛伦兹想象空间中需要一个代表自己的变量有关,然后自由意志可能成为交流该变量采取的行动的手段,这对于社会和文化学习至关重要。尽管它是人类智能的核心,但它尚未进入机器学习研究阶段(Henrich,2016)。

10 个人观点和结论

我与Judea Pearl的第一个有意识的相遇是在2001年的一次计算机科学与统计接口研讨会上。我们俩都在这次座谈会上讲话,我回想起他的演讲,正式确定了我先前曾牢固地视为哲学领域一部分的科学探究领域。它引起了我当时对统计学习理论和核方法的兴趣。 我具有数学和物理学的背景,涉猎神经网络,当我在1994年遇见弗拉基米尔·瓦普尼克(Vladimir Vapnik)时给我留下了深刻的印象,弗拉基米尔·瓦普尼克(Vladimir Vapnik)教我一个统计理论,该统计理论是归纳和泛化的哲学问题。 在我们还处于年轻阶段的AI领域的另一位巨头Judea Pearl,似乎在一个完全不同但同样引人入胜的问题上做了同样的事情。 像弗拉基米尔(Vladimir)一样,Judea 给我留下了持久的印象,因为他不仅掌握了技术知识,而且获得了深刻的哲学理解。随着核方法和学习理论的兴起,当时我没有设法深入探讨因果关系。 我确实关注了图形化模型中的一些工作,这些工作成为机器学习中的必备知识,并且我知道,尽管大多数研究人员都回避将这些模型作为因果关系进行介绍,但这种解释存在并构成了该领域的概念性动机。

我在2004年第二次接触因果关系研究,是由我的研究朋友Dominik Janzing带来的。 他当时正在研究量子信息,并在卡尔斯鲁厄教授的一门课程中谈到了因果关系。 学生孙小海跟着那个讲座,说服多米尼克开始和他一起做一个项目。 最终,一个博士的问题,D.项目出现了,Dominik(他觉得自己的领域离这太远了)决定问我联合监督是否有意义。 当时,Vladimir Vapnik正在参观我的实验室,经过长时间的交谈,他同意这可能是有趣的(“你应该决定你是否想玩这个游戏”-根据他的标准,这是一个相当热情的认可)。我决定冒险,小海成为了我在吐宾根实验室的学生,2007年,多米尼克加入了我们。 我们还招募了JonasPeters,他参加了我在2006年教的暑期课程,以及博士后JorisMooij和KunZhang,他们都(JorisMooij)和张昆(KunZhang),他们都独立地致力于因果关系问题。 与AndreElisseeff和SteffenLauritzen,在达格斯图Dominik和我一起写了一份关于组织因果关系研讨会的建议。这次研讨会于2009年举行,帮助我们成为因果关系社区的成员;这是我第一次亲自会见彼得·斯皮尔特斯。

我感到幸运的是,有这么一支强大的团队来做这项工作(包括许多我上面没有提到的人),我相信我们对现代因果关系研究作出了贡献,特别是它与机器学习的联系:既通过使用学习方法来开发数据驱动的因果方法,也通过使用因果关系的灵感来更好地理解机器学习和开发新的学习方法。 在这方面,表示学习和分离是有趣的领域。 我记得当我是CIFAR项目的审查小组和咨询委员会的成员时,与Yoshua Bengio进行了一些讨论。 他的目标是利用深度学习来理清数据变化的潜在因素,我认为这是一个因果问题。从那时起,我们的意见已经趋同,研究已经开始出现,这两个领域结合在一起(Bengio等人,2019年;Goyal等人,2019年;Locatello等人,2018年a;Suter等人,2018年;Goudet等人,2017年)。

所有这一切仍处于起步阶段,以上描述是个人陈述,因此难免有失偏颇——对于任何遗漏,我深表歉意。 在当前关于机器学习的大肆宣传下,有很多理由可以支持对机器学习可以做什么,以及因此对AI的当前状态持某种谦逊态度——然而困难的问题尚未解决,这使得该领域的基础研究更加令人兴奋。

致谢
非常感谢图宾根因果关系小组的所有过去和现在的成员,如果没有他们的工作和见解,这篇文章就不会存在,特别是Dominik Janzing和ChaochaoLu阅读了手稿的版本。 案文还受益于与Elias Bareinboim、Yoshua Bengio、Christoph Bohle、Leon Bottou、Anirudh Goyal、Isabelle Guyon、Judea Pearl和Vladimir Vapnik的讨论。 Wouter van Amsterdam和Julius von Kugelgen指出了在第二个版本中已经更正的错别字。

References

J. Aldrich. 1989. Autonomy. Oxford Economic Papers, 41: 15–34.
I. Asimov. 1951. Foundation. Gnome Press, New York, NY, USA.
E. Bareinboim and J. Pearl. 2014. Transportability from multiple environments with limited experiments: Completeness results. In
Advances in Neural Information Processing Systems 27, pp. 280–288.
E. Bareinboim, A. Forney, and J. Pearl. 2015. Bandits with unobserved confounders: A causal approach. In Advances in Neural
Information Processing Systems 28, pp. 1342–1350.
S. Bauer, B. Schölkopf, and J. Peters. 2016. The arrow of time in multivariate time series. In Proceedings of the 33nd International
Conference on Machine Learning, volume 48 of JMLR Workshop and Conference Proceedings, pp. 2043–2051.
E. Bengio, V. Thomas, J. Pineau, D. Precup, and Y. Bengio, 2017. Independently controllable features. arXiv:1703.07718.
Y. Bengio, A. Courville, and P. Vincent, 2012. Representation learning: A review and new perspectives. arXiv:1206.5538.
Y. Bengio, T. Deleu, N. Rahaman, R. Ke, S. Lachapelle, O. Bilaniuk, A. Goyal, and C. Pal, 2019. A meta-transfer objective for
learning to disentangle causal mechanisms. arXiv:1901.10912.
B. Benneke, I. Wong, C. Piaulet, H. A. Knutson, I. J. M. Crossfield, J. Lothringer, C. V. Morley, P. Gao, T. P. Greene, C. Dressing,
D. Dragomir, A. W. Howard, P. R. McCullough, E. M. R. K. J. J. Fortney, and J. Fraine, 2019. Water vapor on the habitable-zone
exoplanet K2-18b. arXiv:1909.04642.
M. Besserve, N. Shajarisales, B. Schölkopf, and D. Janzing. 2018a. Group invariance principles for causal generative models. In
Proceedings of the 21st International Conference on Artificial Intelligence and Statistics (AISTATS), pp. 557–565.
M. Besserve, R. Sun, and B. Schölkopf, 2018b. Counterfactuals uncover the modular structure of deep generative models.
arXiv:1812.03253.
A. Blum and T. Mitchell. 1998. Combining labeled and unlabeled data with co-training. In Proceedings of the Eleventh Annual
Conference on Computational Learning Theory, pp. 92–100. ACM, New York, NY, USA.
P. Blöbaum, T. Washio, and S. Shimizu, 2016. Error asymmetry in causal and anticausal regression. Behaviormetrika, 2017.
arXiv:1610.03263.
D. Bohm. 1957. Causality and Chance in Modern Physics. Routledge & Kegan Paul, London.
B. Bonet and H. Geffner, 2019. Learning first-order symbolic representations for planning from the structure of the state space.
arXiv:1909.05546.
L. Bottou, J. Peters, J. Quiñonero-Candela, D. X. Charles, D. M. Chickering, E. Portugualy, D. Ray, P. Simard, and E. Snelson.
2013. Counterfactual reasoning and learning systems: The example of computational advertising. Journal of Machine Learning
Research, 14: 3207–3260.
E. Brynjolfsson, A. Collis, W. E. Diewert, F. Eggers, and K. J. Fox. March 2019. GDP-B: Accounting for the value of new and free
goods in the digital economy. Working Paper 25695, National Bureau of Economic Research.
K. Budhathoki and J. Vreeken. 2016. Causal inference by compression. In IEEE 16th International Conference on Data Mining.
L. Buesing, T. Weber, Y. Zwols, S. Racaniere, A. Guez, J.-B. Lespiau, and N. Heess, 2018. Woulda, coulda, shoulda: Counterfactuallyguided policy search. arXiv:1811.06272.
K. Chalupka, P. Perona, and F. Eberhardt, 2015. Multi-level cause-effect systems. arXiv:1512.07942.
K. Chalupka, P. Perona, and F. Eberhardt, 2018. Fast conditional independence test for vector variables with large sample sizes.
arXiv:1804.02747.
O. Chapelle and B. Schölkopf. 2002. Incorporating invariances in nonlinear SVMs. In T. G. Dietterich, S. Becker, and Z. Ghahramani,
eds., Advances in Neural Information Processing Systems 14, pp. 609–616. MIT Press, Cambridge, MA, USA.
O. Chapelle, B. Schölkopf, and A. Zien, eds. 2006. Semi-Supervised Learning. MIT Press, Cambridge, MA, USA. http:
//www.kyb.tuebingen.mpg.de/ssl-book/.
Y. Chen and A. Cheung. 2018. The transparent self under big data profiling: Privacy and Chinese legislation on the social credit
system. The Journal of Comparative Law, 12(2): 356–378.
N. Chentanez, A. G. Barto, and S. P. Singh. 2005. Intrinsically motivated reinforcement learning. In Advances in Neural Information
Processing Systems 17, pp. 1281–1288. MIT Press.
X. Dai, 2018. Toward a reputation state: The social credit system project of China. https://ssrn.com/abstract=3193577.
P. Daniušis, D. Janzing, J. M. Mooij, J. Zscheischler, B. Steudel, K. Zhang, and B. Schölkopf. 2010. Inferring deterministic causal
relations. In Proceedings of the 26th Annual Conference on Uncertainty in Artificial Intelligence (UAI), pp. 143–150.
I. Dasgupta, J. Wang, S. Chiappa, J. Mitrovic, P. Ortega, D. Raposo, E. Hughes, P. Battaglia, M. Botvinick, and Z. Kurth-Nelson,
2019. Causal reasoning from meta-reinforcement learning. arXiv:1901.08162.
A. P. Dawid. 1979. Conditional independence in statistical theory. Journal of the Royal Statistical Society B, 41(1): 1–31.
L. Devroye, L. Györfi, and G. Lugosi. 1996. A Probabilistic Theory of Pattern Recognition, volume 31 of Applications of
Mathematics. Springer, New York, NY.
D. Foreman-Mackey, B. T. Montet, D. W. Hogg, T. D. Morton, D. Wang, and B. Schölkopf. 2015. A systematic search for transiting
planets in the K2 data. The Astrophysical Journal, 806(2). http://stacks.iop.org/0004-637X/806/i=2/a=215.
R. Frisch, T. Haavelmo, T. Koopmans, and J. Tinbergen. 1948. Autonomy of economic relations. Universitets Socialøkonomiske
Institutt, Oslo, Norway.
K. Fukumizu, A. Gretton, X. Sun, and B. Schölkopf. 2008. Kernel measures of conditional dependence. In Advances in Neural
Information Processing Systems 20, pp. 489–496.
D. Geiger and J. Pearl. 1990. Logical and algorithmic properties of independence and their application to bayesian networks. Annals
of Mathematics and Artificial Intelligence, 2: 165–178.
M. Gong, K. Zhang, T. Liu, D. Tao, C. Glymour, and B. Schölkopf. 2016. Domain adaptation with conditional transferable
components. In Proceedings of the 33nd International Conference on Machine Learning, pp. 2839–2848.
M. Gong, K. Zhang, B. Schölkopf, C. Glymour, and D. Tao. 2017. Causal discovery from temporally aggregated time series. In
Proceedings of the Thirty-Third Conference on Uncertainty in Artificial Intelligence (UAI), p. ID 269.
I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio. 2014. Generative
adversarial nets. In Advances in Neural Information Processing Systems 27, pp. 2672–2680. Curran Associates, Inc.
O. Gottesman, F. Johansson, J. Meier, J. Dent, D. Lee, S. Srinivasan, L. Zhang, Y. Ding, D. Wihl, X. Peng, J. Yao, I. Lage, C. Mosch,
L. wei H. Lehman, M. Komorowski, M. Komorowski, A. Faisal, L. A. Celi, D. Sontag, and F. Doshi-Velez, 2018. Evaluating
reinforcement learning algorithms in observational health settings. arXiv:1805.12298.
O. Goudet, D. Kalainathan, P. Caillou, I. Guyon, D. Lopez-Paz, and M. Sebag, 2017. Causal generative neural networks. arXiv:
1711.08936.
A. Goyal, A. Lamb, J. Hoffmann, S. Sodhani, S. Levine, Y. Bengio, and B. Schölkopf, 2019. Recurrent independent mechanisms.
arXiv:1909.10893.
A. Gretton, O. Bousquet, A. Smola, and B. Schölkopf. 2005a. Measuring statistical dependence with Hilbert-Schmidt norms. In
Algorithmic Learning Theory, pp. 63–78. Springer-Verlag.
A. Gretton, R. Herbrich, A. Smola, O. Bousquet, and B. Schölkopf. 2005b. Kernel methods for measuring independence. Journal of
Machine Learning Research, 6: 2075–2129.
R. Guo, L. Cheng, J. Li, P. R. Hahn, and H. Liu, 2018. A survey of learning causality with data: Problems and methods.
arXiv:1809.09337.
I. Guyon, C. Aliferis, and A. Elisseeff. 2007. Causal feature selection. In Computational methods of feature selection, p. 75–97.
Chapman and Hall/CRC.
I. Guyon, D. Janzing, and B. Schölkopf. 2010. Causality: Objectives and assessment. In I. Guyon, D. Janzing, and B. Schölkopf,
eds., JMLR Workshop and Conference Proceedings: Volume 6, pp. 1–42. MIT Press, Cambridge, MA, USA.
T. Haavelmo. 1944. The probability approach in econometrics. Econometrica, 12: S1–S115 (supplement)
C. Heinze-Deml and N. Meinshausen, 2017. Conditional variance penalties and domain shift robustness. arXiv:1710.11469.
C. Heinze-Deml, J. Peters, and N. Meinshausen, 2017. Invariant causal prediction for nonlinear models. arXiv:1706.08576.
J. Henrich. 2016. The Secret of our Success. Princeton University Press.
K. D. Hoover. 2008. Causality in economics and econometrics. In S. N. Durlauf and L. E. Blume, eds., The New Palgrave Dictionary
of Economics. Palgrave Macmillan, Basingstoke, UK, 2nd.
P. O. Hoyer, D. Janzing, J. M. Mooij, J. Peters, and B. Schölkopf. 2009. Nonlinear causal discovery with additive noise models. In
Advances in Neural Information Processing Systems 21 (NIPS), pp. 689–696.
B. Huang, K. Zhang, J. Zhang, R. Sanchez-Romero, C. Glymour, and B. Schölkopf. 2017. Behind distribution shift: Mining driving
forces of changes and causal arrows. In IEEE 17th International Conference on Data Mining (ICDM 2017), pp. 913–918.
D. Janzing. 2019. Causal regularization. In Advances in Neural Information Processing Systems 33.
D. Janzing and B. Schölkopf. 2010. Causal inference using the algorithmic Markov condition. IEEE Transactions on Information
Theory, 56(10): 5168–5194.
D. Janzing and B. Schölkopf. 2015. Semi-supervised interpolation in an anticausal learning scenario. Journal of Machine Learning
Research, 16: 1923–1948.
D. Janzing and B. Schölkopf. 2018. Detecting non-causal artifacts in multivariate linear regression models. In Proceedings of the
35th International Conference on Machine Learning (ICML), pp. 2250–2258.
D. Janzing, J. Peters, J. M. Mooij, and B. Schölkopf. 2009. Identifying confounders using additive noise models. In Proceedings of
the 25th Annual Conference on Uncertainty in Artificial Intelligence (UAI), pp. 249–257.
D. Janzing, P. Hoyer, and B. Schölkopf. 2010. Telling cause from effect based on high-dimensional observations. In J. Fürnkranz
and T. Joachims, eds., Proceedings of the 27th International Conference on Machine Learning, pp. 479–486.
D. Janzing, J. M. Mooij, K. Zhang, J. Lemeire, J. Zscheischler, P. Daniušis, B. Steudel, and B. Schölkopf. 2012. Informationgeometric approach to inferring causal directions. Artificial Intelligence, 182–183: 1–31.
D. Janzing, R. Chaves, and B. Schölkopf. 2016. Algorithmic independence of initial condition and dynamical law in thermodynamics
and causal inference. New Journal of Physics, 18(093052): 1–13.
M. Khajehnejad, B. Tabibian, B. Schölkopf, A. Singla, and M. Gomez-Rodriguez, 2019. Optimal decision making under strategic
behavior. arXiv:1905.09239.
N. Kilbertus, M. Rojas Carulla, G. Parascandolo, M. Hardt, D. Janzing, and B. Schölkopf. 2017. Avoiding discrimination through
causal reasoning. In Advances in Neural Information Processing Systems 30, pp. 656–666.
N. Kilbertus, G. Parascandolo, and B. Schölkopf, 2018. Generalization in anti-causal learning. arXiv:1812.00524.
D. P. Kingma and M. Welling, 2013. Auto-encoding variational Bayes. arXiv:1312.6114.
F. Klein. 1872. Vergleichende Betrachtungen über neuere geometrische Forschungen. Verlag von Andreas Deichert, Erlangen.
S. Kpotufe, E. Sgouritsa, D. Janzing, and B. Schölkopf. 2014. Consistency of causal inference under the additive noise model. In
Proceedings of the 31th International Conference on Machine Learning, pp. 478–486.
M. J. Kusner, J. Loftus, C. Russell, and R. Silva. 2017. Counterfactual fairness. In Advances in Neural Information Processing
Systems 30, pp. 4066–4076. Curran Associates, Inc.
S. Lange, T. Gabel, and M. Riedmiller. 2012. Batch reinforcement learning. In M. Wiering and M. van Otterlo, eds., Reinforcement
Learning: State-of-the-Art, pp. 45–73. Springer, Berlin, Heidelberg.
S. L. Lauritzen. 1996. Graphical Models. Oxford University Press, New York, NY.
Y. LeCun, Y. Bengio, and G. Hinton. 2015. Deep learning. Nature, 521(7553): 436–444.
Y. Li, M. Gong, X. Tian, T. Liu, and D. Tao, 2018a. Domain generalization via conditional invariant representation. arXiv:
1807.08479.
Y. Li, X. Tian, M. Gong, Y. Liu, T. Liu, K. Zhang, and D. Tao. 2018b. Deep domain generalization via conditional invariant
adversarial networks. In The European Conference on Computer Vision (ECCV).
Z. C. Lipton, Y.-X. Wang, and A. Smola, 2018. Detecting and correcting for label shift with black box predictors. arXiv:
1802.03916.
F. Locatello, S. Bauer, M. Lucic, G. Rätsch, S. Gelly, B. Schölkopf, and O. Bachem, 2018a. Challenging common assumptions in the
unsupervised learning of disentangled representations. Proceedings of the 36th International Conference on Machine Learning.
F. Locatello, D. Vincent, I. Tolstikhin, G. Rätsch, S. Gelly, and B. Schölkopf, 2018b. Competitive training of mixtures of independent
deep generative models. arXiv:1804.11130.
D. Lopez-Paz, K. Muandet, B. Schölkopf, and I. Tolstikhin. 2015. Towards a learning theory of cause-effect inference. In Proceedings
of the 32nd International Conference on Machine Learning, pp. 1452–1461.
D. Lopez-Paz, R. Nishihara, S. Chintala, B. Schölkopf, and L. Bottou. 2017. Discovering causal signals in images. In IEEE
Conference on Computer Vision and Pattern Recognition (CVPR), pp. 58–66.
C. Lu, B. Schölkopf, and J. M. Hernández-Lobato, 2018. Deconfounding reinforcement learning in observational settings.
arXiv:1812.10576.
S. MacLane. 1971. Categories for the Working Mathematician. Springer-Verlag, New York. Graduate Texts in Mathematics, Vol. 5.
S. Magliacane, T. van Ommen, T. Claassen, S. Bongers, P. Versteeg, and J. M. Mooij. 2018. Domain adaptation by using causal
inference to predict invariant conditional distributions. In Proc. NeurIPS. arXiv:1707.06422.
E. Medina. 2011. Cybernetic Revolutionaries: Technology and Politics in Allende’s Chile. The MIT Press.
V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski,
S. Petersen, C. Beattie, A. Sadik, I. Antonoglou, H. King, D. Kumaran, D. Wierstra, S. Legg, and D. Hassabis. 2015. Human-level
control through deep reinforcement learning. Nature, 518(7540): 529–533.
B. T. Montet, T. D. Morton, D. Foreman-Mackey, J. A. Johnson, D. W. Hogg, B. P. Bowler, D. W. Latham, A. Bieryla, and A. W.
Mann. 2015. Stellar and planetary properties of K2 campaign 1 candidates and validation of 17 planets, including a planet
receiving earth-like insolation. The Astrophysical Journal, 809(1): 25.
J. M. Mooij, D. Janzing, J. Peters, and B. Schölkopf. 2009. Regression by dependence minimization and its application to causal
inference. In Proceedings of the 26th International Conference on Machine Learning (ICML), pp. 745–752.
J. M. Mooij, D. Janzing, T. Heskes, and B. Schölkopf. 2011. On causal discovery with cyclic additive noise models. In Advances in
Neural Information Processing Systems 24 (NIPS).
J. M. Mooij, D. Janzing, and B. Schölkopf. 2013. From ordinary differential equations to structural causal models: The deterministic
case. In Proceedings of the 29th Annual Conference on Uncertainty in Artificial Intelligence (UAI), pp. 440–448.
J. M. Mooij, J. Peters, D. Janzing, J. Zscheischler, and B. Schölkopf. 2016. Distinguishing cause from effect using observational
data: methods and benchmarks. Journal of Machine Learning Research, 17(32): 1–102.
G. Parascandolo, N. Kilbertus, M. Rojas-Carulla, and B. Schölkopf. 2018. Learning independent causal mechanisms. In Proceedings
of the 35th International Conference on Machine Learning (ICML), pp. 4033–4041.
J. Pearl. 1988. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. Morgan Kaufmann Publishers Inc.,
San Francisco, CA.
J. Pearl. 2009a. Causality: Models, Reasoning, and Inference, 2nd. Cambridge University Press, New York, NY.
J. Pearl. 2009b. Giving computers free will. Forbes.
J. Pearl and E. Bareinboim, 2015. External validity: From do-calculus to transportability across populations. Statistical Science
2014, Vol. 29, No. 4, 579-595. arXiv:1503.01603.
J. Peters, J. M. Mooij, D. Janzing, and B. Schölkopf. 2011. Identifiability of causal graphs using functional models. In Proceedings
of the 27th Annual Conference on Uncertainty in Artificial Intelligence (UAI), pp. 589–598.
J. Peters, J. M. Mooij, D. Janzing, and B. Schölkopf. 2014. Causal discovery with continuous additive noise models. Journal of
Machine Learning Research, 15: 2009–2053.
J. Peters, P. Bühlmann, and N. Meinshausen. 2016. Causal inference using invariant prediction: identification and confidence
intervals. Journal of the Royal Statistical Society, Series B: Statistical Methodology (with discussion), 78(5): 947–1012.
J. Peters, D. Janzing, and B. Schölkopf. 2017. Elements of Causal Inference - Foundations and Learning Algorithms. MIT Press,
Cambridge, MA, USA.
N. Pfister, S. Bauer, and J. Peters, 2018a. Identifying causal structure in large-scale kinetic systems. arXiv:1810.11776.
N. Pfister, P. Bühlmann, B. Schölkopf, and J. Peters. 2018b. Kernel-based tests for joint independence. Journal of the Royal
Statistical Society: Series B (Statistical Methodology), 80(1): 5–31.
S. Rabanser, S. Günnemann, and Z. C. Lipton, 2018. Failing loudly: An empirical study of methods for detecting dataset shift.
arXiv:1810.11953.
H. Reichenbach. 1956. The Direction of Time. University of California Press, Berkeley, CA.
M. Rojas-Carulla, B. Schölkopf, R. Turner, and J. Peters. 2018. Invariant models for causal transfer learning. Journal of Machine
Learning Research, 19(36): 1–34.
P. K. Rubenstein, S. Weichwald, S. Bongers, J. M. Mooij, D. Janzing, M. Grosse-Wentrup, and B. Schölkopf. 2017. Causal
consistency of structural equation models. In Proceedings of the Thirty-Third Conference on Uncertainty in Artificial Intelligence.
P. K. Rubenstein, S. Bongers, B. Schölkopf, and J. M. Mooij. 2018. From deterministic ODEs to dynamic structural causal models.
In Proceedings of the 34th Conference on Uncertainty in Artificial Intelligence (UAI).
B. Schölkopf. 2015. Artificial intelligence: Learning to see and act. Nature, 518(7540): 486–487.
B. Schölkopf, 2017. Causal learning. Invited Talk, 34th International Conference on Machine Learning (ICML), https://vimeo.
com/238274659.
B. Schölkopf and A. J. Smola. 2002. Learning with Kernels. MIT Press, Cambridge, MA.
B. Schölkopf, D. Janzing, J. Peters, and K. Zhang, 2011. Robust learning via cause-effect models. https://arxiv.org/abs/
1112.2738.
B. Schölkopf, D. Janzing, J. Peters, E. Sgouritsa, K. Zhang, and J. Mooij. 2012. On causal and anticausal learning. In J. Langford
and J. Pineau, eds., Proceedings of the 29th International Conference on Machine Learning (ICML), pp. 1255–1262. Omnipress,
New York, NY, USA. http://icml.cc/2012/papers/625.pdf.
B. Schölkopf, D. Hogg, D. Wang, D. Foreman-Mackey, D. Janzing, C.-J. Simon-Gabriel, and J. Peters. 2016a. Modeling confounding
by half-sibling regression. Proceedings of the National Academy of Science (PNAS), 113(27): 7391–7398.
B. Schölkopf, D. Janzing, and D. Lopez-Paz. 2016b. Causal and statistical learning. In Oberwolfach Reports, volume 13(3), pp.
1896–1899.
L. Schott, J. Rauber, M. Bethge, and W. Brendel. 2019. Towards the first adversarially robust neural network model on MNIST. In
International Conference on Learning Representations. https://openreview.net/forum?id=S1EHOsC9tX.
R. D. Shah and J. Peters, 2018. The hardness of conditional independence testing and the generalised covariance measure.
arXiv:1804.07203.
N. Shajarisales, D. Janzing, B. Schölkopf, and M. Besserve. 2015. Telling cause from effect in deterministic linear dynamical
systems. In Proceedings of the 32nd International Conference on Machine Learning (ICML), pp. 285–294.
C. E. Shannon. 1959. Coding theorems for a discrete source with a fidelity criterion. In IRE International Convention Records,
volume 7, pp. 142–163.
S. Shimizu, P. O. Hoyer, A. Hyvärinen, and A. J. Kerminen. 2006. A linear non-Gaussian acyclic model for causal discovery.
Journal of Machine Learning Research, 7: 2003–2030.
V. Smil. 2017. Energy and Civilization: a History. MIT Press, Cambridge, MA.
P. Spirtes, C. Glymour, and R. Scheines. 2000. Causation, Prediction, and Search, 2nd. MIT Press, Cambridge, MA.
W. Spohn. 1978. Grundlagen der Entscheidungstheorie. Scriptor-Verlag.
I. Steinwart and A. Christmann. 2008. Support Vector Machines. Springer, New York, NY.
B. Steudel, D. Janzing, and B. Schölkopf. 2010. Causal Markov condition for submodular information measures. In Proceedings of
the 23rd Annual Conference on Learning Theory (COLT), pp. 464–476.
A. Subbaswamy, P. Schulam, and S. Saria, 2018. Preventing failures due to dataset shift: Learning predictive models that transport.
arXiv:1812.04597.
X. Sun, D. Janzing, and B. Schölkopf. 2006. Causal inference by choosing graphs with most plausible Markov kernels. In
Proceedings of the 9th International Symposium on Artificial Intelligence and Mathematics.
R. Suter, Ðorde Miladinovi ¯ c, B. Schölkopf, and S. Bauer, 2018. Robustly disentangled causal mechanisms: Validating deep ´
representations for interventional robustness. arXiv:1811.00007. Proceedings ICML.
C. Szegedy, W. Zaremba, I. Sutskever, J. Bruna, D. Erhan, I. Goodfellow, and R. Fergus, 2013. Intriguing properties of neural
networks. arXiv:1312.6199.
A. Tsiaras, I. Waldmann, G. Tinetti, J. Tennyson, and S. Yurchenko. 2019. Water vapour in the atmosphere of the habitable-zone
eight-earth-mass planet K2-18b. Nature Astronomy. DOI: 10.1038/s41550-019-0878-9.
V. Vapnik. 1995. The Nature of Statistical Learning Theory. Springer, NY.
V. N. Vapnik. 1998. Statistical Learning Theory. Wiley, New York, NY.
J. von Kügelgen, A. Mey, M. Loog, and B. Schölkopf, 2019. Semi-supervised learning, causality and the conditional cluster
assumption. https://arxiv.org/abs/1905.12081.
H. Wang, Z. He, Z. C. Lipton, and E. P. Xing, 2019. Learning robust representations by projecting superficial statistics out.
arXiv:1903.06256.
S. Weichwald, B. Schölkopf, T. Ball, and M. Grosse-Wentrup. 2014. Causal and anti-causal learning in pattern recognition for
neuroimaging. In 4th International Workshop on Pattern Recognition in Neuroimaging (PRNI). IEEE.
W. K. Wootters and W. H. Zurek. 1982. A single quantum cannot be cloned. Nature, 299(5886): 802–803. DOI: 10.1038/299802a0.
J. Zhang and E. Bareinboim. 2018. Fairness in decision-making - the causal explanation formula. In Proceedings of the Thirty-Second
AAAI Conference on Artificial Intelligence, New Orleans, Louisiana, USA, pp. 2037–2045.
J. Zhang and E. Bareinboim. 2019. Near-optimal reinforcement learning in dynamic treatment regimes. In Advances in Neural
Information Processing Systems 33.
K. Zhang and A. Hyvärinen. 2009. On the identifiability of the post-nonlinear causal model. In Proceedings of the 25th Annual
Conference on Uncertainty in Artificial Intelligence (UAI), pp. 647–655.
K. Zhang, J. Peters, D. Janzing, and B. Schölkopf. 2011. Kernel-based conditional independence test and application in causal
discovery. In Proceedings of the 27th Annual Conference on Uncertainty in Artificial Intelligence (UAI), pp. 804–813.
K. Zhang, B. Schölkopf, K. Muandet, and Z. Wang. 2013. Domain adaptation under target and conditional shift. In Proceedings of
the 30th International Conference on Machine Learning (ICML), pp. 819–827.
K. Zhang, M. Gong, and B. Schölkopf. 2015. Multi-source domain adaptation: A causal view. In Proceedings of the 29th AAAI
Conference on Artificial Intelligence, pp. 3150–3157.

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值