论文解读:Toward Causal Representation Learning(向因果表示学习)

作者:Bernhard Schölkopf , Francesco Locatello , Stefan Bauer , Nan Rosemary Ke, Nal Kalchbrenner,Anirudh Goyal, Yoshua Bengio

1.综述

该论文深入探讨了因果模型的基本概念,并与机器学习中的问题相关联,包括迁移学习和泛化。描述了模型的建模层次,特别是因果模型与统计模型的区别。陈述独立因果机制(ICM)和稀疏机制转换(SMS)对因果模型的影响。讨论了如何以因果表示从数据中学习有用的现实模型。

2.问题阐述

机器学习对于问题的迁移、泛化方面的表现并不是很好,并且其目前大部分都是在数据为独立同分布的条件下进行。而因果关系可以使动物在面对环境变化时能够利用干预、领域变化和时间结构等信息,但机器学习通常并不能对这些信息加以利用

 a.鲁棒性

深度学习并不能对来源不同的数据进行很好的预测,即对于分布不同的数据的泛化能力不好。要提高深度学习模型的泛化能力不仅需要学习变量之间的统计关联,还需要学习潜在的因果模型。

b.学习可重用机制

学习环境结构知识可以很好地提高机器学习模型的泛化能力。在面对新环境、新任务时,只需要调用模型内部的几个模块即可。

c.因果关系视角

因果关系不能由布尔逻辑或概率推断来完全描述,而是需要考虑的干预概念。因果关系被视为推理链的组成部分,发现因果关系意味着,在获得在观察数据之外以及一组训练任务中仍然具有稳健的知识,并且它涉及推理形式的情况。因果关系,重点是表示允许干预和变化的数据生成过程的结构知识,有助于理解和解决当前机器学习方法的一些限制。

3.因果建模层次

因果模型就像物理学中的模型一样,目的是提供理解和预测干预措施的效果。然而,因果发现和学习试图以一种数据驱动的方式得出这样的模型,用弱的和通用的假设取代专家知识。对不同模型的分类与分级为:

a.在独立同分布(i.i.d.)设置中的预测

统计模型是对现实的表面描述,只需要对关联性进行建模。统计模型的预测只有在实验条件完全相同的情况下才是准确的,进行干预会改变数据分布,这会导致预测不准确。因此,统计模型并不足够支撑决策。

b.在分布变化下的预测

干预性问题比预测更具有挑战性。干预改变了变量的联合分步,将我们带出统计学习通常的独立同分布的行动,经典的统计学习将不再适用。训练包含干预的预测模型,会具有很好的鲁棒性(即使实验条件改变,其预测依然有效)。

c.回答反事实问题的能力

反事实问题涉及对事情发生原因的推理,想象不同行动的后果,并确定哪些行动可以实现期望的结果。反事实问题在强化学习(RL)中至关重要,可以使智能代理反思其决策,并提出可以经验验证的假设。

d.数据的性质:观察性、干预性、结构化

数据格式往往决定着推断出的关联类型。数据模式可以分为两个维度:观察性与干预性,人工总结(结构化)与原始感知(非结构化)。

观察数据可能只能提供关于变量之间关联的信息,干预性数据可以帮助我们了解变量之间的因果关系。机器学习通常使用观察数据,因为它们更容易获得。但,为了理解因果关系并预测干预效果,我们需要能够处理干预数据的模型。为了学习有用的因果模型,我们需要开发能够从非结构化数据中提取高级特征的方法,这些方法可能涉及到使用适当的归纳偏差和学习范式,如元学习(metalearning)和自监督学习(self-supervised learning)。

4.因果模型与推断

a.由独立同分布(i.i.d.)数据驱动的方法

i.i.d.数据是指数据集中的每个数据点都是独立地从同一个概率分布中抽取的。而现实世界中的数据往往不满足i.i.d.假设,会导致在i.i.d.假设下的模型可能在训练数据上表现良好,但在面对分布变化时泛化能力不足。因果模型试图超越i.i.d.数据的局限性,通过理解变量之间的因果关系来提高模型的泛化能力和鲁棒性,因果模型模拟对系统中的一个或多个变量进行干预,并观察系统如何响应这些变化。

b. 从统计到因果的莱辛巴赫(Reichenbach)原则

莱辛巴赫的共同原因原则(Common Cause Principle):如果两个可观察变量X和Y在统计上是相关的,那么存在一个变量Z,它对X和Y都有因果影响,并解释了它们之间的所有依赖性。在条件化给定Z的情况下,X和Y变得独立。

仅凭观测数据很难确定变量之间的确切因果关系,因为可能存在多个因果模型与观测数据一致。

c.结构因果模型(SCMs)

因果模型通常采用有向无环图(DAG)来表示变量之间的因果关系。每个节点代表一个变量,有向边表示一个变量直接导致另一个变量的变化。在SCM中,每个变量的值是由其父节点的值和一些随机噪声决定的。这种模型允许我们计算给定干预下的联合概率分布,从而预测干预的结果。

SCM不仅允许我们模拟对系统中的一个或多个变量进行干预。还允许我们进行反事实推理,即考虑如果过去某个条件不同,现在的结果会如何。尽管从观测数据中恢复因果结构是困难的,但SCM提供了一种框架,通过假设(如独立性)和数据驱动的方法来学习因果关系。

d.统计模型、因果图模型和SCMs之间的区别

统计模型关注于数据的分布和关联性,但不涉及因果关系。

因果图模型通过图形化的方式表示变量之间的因果关系,允许干预分析,但不一定包含具体的生成过程。

SCMs是更为详细的因果模型,它们不仅描述了变量之间的因果关系,还包含了每个变量的具体生成过程,允许进行更深入的因果推理和分析。

5.独立因果机制(ICM)

ICM原则:系统的因果生成过程由一组自主的模块组成,这些模块在给定其原因(即其机制)的条件下,不会相互通知或影响。有助于从数据中学习因果关系,并且使得模型能够更好地泛化到新的情境。

稀疏机制变化(SMS)假设:指出小的分布变化倾向于在因果/解耦因子分解中以稀疏或局部的方式表现出来,即它们通常不会同时影响所有因素。可用来识别和分离出在不同任务或环境中保持不变的因素。

算法独立性::算法独立性是一种形式化的独立性概念,它使用算法信息理论来量化机制之间的独立性。如果两个条件分布的最短压缩表示相互独立,那么它们被认为是算法独立的。算法独立性提供了一种非统计的方法来理解和量化因果机制的独立性,这有助于在没有明确统计独立性的情况下进行因果推断。

6. 因果发现与机器学习

因果发现是理解数据生成过程的关键,它可以帮助我们超越关联性,理解变量之间的因果联系。因果发现方法可以通过条件独立性测试来识别出变量之间的因果关系。

7. 学习因果变量

因果变量是指那些在因果关系中起作用的变量。现实世界的观察数据通常是高维的,并且不直接对应于因果变量。从这些数据中学习因果变量是一个挑战,需要将高维的感知数据转换成能够捕捉到因果结构的低维表示(即,表示学习)。因果表示学习的目标是学习一种表示,这种表示能够暴露未知因果结构。需要使用神经网络将低级特征映射到支持因果表达的高级变量,这些变量对于一系列下游任务是有用的。

a.学习解耦表示

是从数据中提取出独立的因素,这些因素可以独立地被操纵,并且在相关任务中保持不变性。可以使用自编码器或其他生成模型来学习数据的低维表示,这些表示捕获了数据中的变化因素。也可以使用监督信号来帮助学习解耦表示

自编码器包括一个编码器qq,它将XX映射到一个潜在的“瓶颈”表示,以及一个解码器pp,它将潜在表示映射回XX。通过训练自编码器,可以使重构误差最小化,从而学习到数据的有效表示。

b.学习可转移的机制

在现实世界中,无论是训练数据还是计算资源都是有限的。因此,我们需要找到方法来合并或重用数据,而不是依赖于大规模的人工标注工作。为了有效利用资源,模型应该采用模块化结构,这反映了世界本身的模块化特性。模型应该能够在新任务或新环境中重用其组件,这要求模型组件在不同任务和环境中具有鲁棒性。这些模型组件在给定其原因的条件下,不应该相互影响或传递信息。通过竞争性训练实现具有独立机制的模型,以帮助模型在面对不同的数据分布时,更好地泛化和适应。

c.学习干预性世界模型和推理

因果推理是理解变量之间因果关系的过程。这种推理能力对于Konrad Lorenz在想象空间中行动的思考的概念至关重要。这涉及到能够反思自己的行为并想象替代情景的能力。自我意识在生物学上可能与在想象空间中代表自己的变量的需要有关。自由意志可能是沟通该变量所采取行动的一种手段,这对于社会和文化学习至关重要。

8.对机器学习的影响

这些讨论都呼吁一种不依赖于通常的i.i.d.假设的学习范式,但涉及相同的因果机制。带来了以下四个挑战:) 在许多情况下,我们需要从未标记的低级输入特征中推断出抽象的因果变量;2) 关于哪些数据方面揭示了因果关系,目前还没有共识;3) 现有的训练和测试集的实验协议可能不足以推断和评估现有数据集上的因果关系,我们可能需要创建新的基准,例如,可以访问环境信息和干预;4) 即使在我们理解的有限情况下,我们也常常缺乏可扩展和数值上合理的算法。

a.半监督学习(SSL)

如果我们假设因果图是X → Y,并且我们尝试学习一个映射X → Y,根据独立机制(ICM)原理,P(X) 应该不包含关于P(Y|X)的任何信息。即,预测的方向与因果生成过程相同,SSL是无效的。只有在反因果方向上(即,预测的方向与因果生成过程相反),SSL可能是可能的。

b.对抗性脆弱性

因果关系的方向可能影响分类器对对抗性攻击的脆弱性。这些攻击违反了统计机器学习所依赖的独立同分布(i.i.d.)假设。在对抗性设置中,修改后的测试样本并不是从与训练样本相同的分布中抽取的。

c.鲁棒性和强泛化

干预,即对数据生成过程中某些变量的主动改变。通过考虑一系列可能的干预,可以训练模型以适应不同的数据分布变化。

最坏情况的泛化风险度量方法:在所有可能的干预分布上计算模型损失的最大值。这要求模型在面对最极端的数据分布变化时也能保持良好性能。

为了实现强泛化,模型需要在多样化的环境分布上进行训练。这意味着模型需要能够处理来自不同环境的数据。因果模型通过明确建模干预,提供了一种泛化到新环境的方法。通过学习数据的因果结构,模型可以更好地适应分布的变化,并在新的测试环境中实现更好的泛化。

为了学习一个鲁棒的预测器,需要在已知的环境分布上进行优化,以减少在未知环境分布上的泛化误差。这可能涉及到使用特定的训练技术,如对抗性训练,来模拟可能的干预

d.预训练、数据增强和自监督学习

为解决最优问题可以:

①丰富训练集的分布;

②与前一种方法结合使用,通过数据增强(人工生成的干预)来增加数据的多样性,例,图像旋转等;

③自监督学习。即,通过在大量未标记数据集上预训练,然后对少量标记示例进行微调,这样即使只有很少的类别标签,也可以取得良好的结果。其核心挑战是提取对数据生成分布有用的特征。

e.强化学习(RL)

由于RL有时直接估计干预状态下,其行为或结果的概率,因此其更适合因果关系的研究。应用于 RL 的因果学习可以分为两个方面:因果归纳和因果推理。因果归纳涉及从未标记数据中学习因果关系。因果推理基于因果模型进行规划和行动。有很多证据证明使用结构化表征是非常有用的:

①世界模型:只在模拟干预对世界当前状态的影响。结构化的生成方法旨在将环境分解为具有因果关系的多个实体。许多当前的方法只构建了环境的部分模型 ,由于它们没有在每个时间步骤观察环境。因此,环境可能会作为一个未观察到的混杂因素影响代理的行动和奖励。为了解决这个问题,模型可以使用后门标准,通过其策略进行条件化 。

②泛化、鲁棒性和快速迁移:RL实现良好性能的样本复杂度很高。RL 代理在面对训练阶段未见过的微小环境变化时表现非常脆弱。在一个因果图结构中学习不变性可以很好的解决这个问题,而学习不变性的关键要求是干预并从中学习。

③反事实推理:反事实推理可以提高 RL 算法的效率和性能。反事实推理可以推理过去行为的有用性,并将这些有用性转移到未来场景的行为中。未来应该将反事实推理作为RL的一个关键组件,实现在想象空间中行动,随后通过适当选择的干预进行测试。

④离线RL:从未标记数据集的轨迹中学习策略来解决需要大量高保真和多样化的训练数据问题,而不需要任何实验或干预数据。然而,当前策略与收集离线数据的策略之间的分布不匹配使离线RL具有困难。可以通过在 ICMs 的术语中分解知识从而取得进展。

f.多任务学习和持续学习

多任务学习是构建一个能够跨不同环境解决多个任务的系统。该系统可以通过学习任务之间的相似性,从而用于新任务。学习跨任务相似性的一种可能是学习一个共享的潜在数据生成过程,其组成部分满足SMS假设。这种因果生成模型可以帮助系统更快地适应分布中的稀疏干预。持续学习是指系统能够在面对新任务时,保持对之前任务的知识,并且能够适应新环境。这涉及到学习如何从先前的经验中泛化,并将其应用于新的、不同的设置。将机器学习与因果模型相整合,结合两个领域的优势,是通往AI系统的必要步骤。

9.总结

讨论了因果模型和统计模型等不同层次的模型,这些模型都建立在一系列涉及建模和数据收集的假设上面。说明了因果推断的理论基础知识,并强调了独立机制假设及相关概念(如不变性)为因果学习提供了有力的偏差,以及如何从观察数据和干预数据中学习因果关系。讨论了如何将因果框架应用于机器学习领域,如半监督学习、领域泛化以及对抗鲁棒性。

未来研究领域将包括:

①学习大规模的非线性因果关系:1、在什么条件下可以学习非线性因果关系;2、哪些训练框架最有利于利用机器学习方法进行扩展;3、 在泛化、重用和转移因果模块方面,提供对统计表示的优势的有力证据。

②学习因果变量:神经网络学习的解耦表示仍是分布式的,即,表示的大小不能动态变化(不能改变场景中的对象数量)。神经网络应该出现结构化和模块化的表示对于一组特定任务,根据任务和能力提取不同的高级变量,理解在什么条件下恢复因果变量。

③理解现有深度学习方法的偏差:理解预训练中的设计选择如何以因果方式积极影响下游的迁移和鲁棒性。

④学习因果正确的世界和代理模型:从未标记的高维、低维像素表示中推导出抽象的因果变量,然后恢复因果图对RL中的因果归纳很重要。构建代理和环境的因果描述是RL的关键。

  • 29
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值