因果表征学习综述

tzc_fly

已于 2022-03-10 16:23:22 修改

阅读量5.5k

点赞数 11

分类专栏：论文阅读笔记文章标签：学习人工智能机器学习

于 2022-03-10 15:59:36 首次发布

本文链接：https://blog.csdn.net/qq_40943760/article/details/123373859

版权

论文阅读笔记专栏收录该内容

82 篇文章

订阅专栏

因果表征学习是机器学习中的关键研究领域，旨在从原始数据中提取出因果变量，以构建鲁棒且具有泛化能力的模型。本文探讨了统计学习与因果学习的差异，强调了鲁棒性、学习可复用机制和因果视角的重要性。通过学习因果模型，模型不仅能处理观测数据，还能在分布偏移和干预条件下进行预测，甚至解答反事实问题。此外，文中指出从非结构化数据中学习因果变量是当前挑战之一，未来的研究应致力于构建能够适应现实世界变化的智能系统。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

fig1

本篇内容来自因果表征学习综述 “Towards Casual Representation Learning”，表征学习Representation Learning是机器学习中的重要问题，良好的表征是机器学习算法成功的重要条件；正因如此，近十年来深度学习借助神经网络强大的表达能力、海量的数据以及强大的算力，自动地从数据中学习表征，取代了传统的人工制作的特征，取得了瞩目的成就。

现实应用中，许多关键问题都可以归结为OOD(out-of-distribution)问题。因为统计学习模型需要独立同分布(iid)假设，若测试数据与训练数据来自不同的分布，统计学习模型往往会出错。在很多情况下，iid的假设是不成立的，而因果推断所研究的正是这样的情形：如何学习一个可以在不同分布下工作、蕴含因果机制的因果模型(Causal Model)，并使用因果模型进行干预或反事实推断。

因此，人工智能和因果关系的一个核心问题是因果表征学习，即从低级观察（low-level observations）中发现高级因果变量（high-level causal variables）。

引言

我们可以很自然地想到将因果推断的优点结合到机器学习中，然而现实没有这么容易。因果模型往往处理的是结构化数据（行数据，可以用二维表结构来逻辑表达实现的数据），并不能处理机器学习中常见的高维的低层次的原始数据，例如图像。为此，回到最初的问题，因果表征即可理解为可以用于因果模型的表征，因果表征学习即为将图像这样的原始数据转化为可用于因果模型的结构化变量。因果表征学习就是连接因果科学与机器学习的桥梁，解决这一相关问题，就可以将因果推断与机器学习结合起来，构建下一代更强大的AI。下面首先强调关键的研究挑战。

鲁棒性Robustness

在现实世界中，数据来源的分布往往很少受到控制。例如，在计算机视觉中，测试分布的变化可能来自像差，如相机模糊、噪声或压缩质量，或者来自位移、旋转或视角变换。受此启发，提出了新的基准，专门测试方法的泛化能力，到目前为止，对于如何解决这些问题还没有明确的共识，尽管在使用数据增强、预训练、自监督学习和引入适当归纳偏差（inductive bias）的架构已经取得了进展。但有人认为这样的修正可能是不够的，在iid设置之外进行推广不仅需要学习变量之间的统计关联，还需要学习潜在的因果模型。后者允许通过干预的概念来模拟分布变化。

Learning Reusable Mechanisms

婴儿对物理的理解依赖于可以随时间追踪并表现一致的物体。这样的表示法可以让孩子们快速学习新的任务，因为他们对物理的知识和直观理解可以重复使用。类似地，能够稳健地解决现实世界任务的智能agent需要在新的场景中重新利用他们的知识和技能。事实证明，结合或能学习环境结构知识的机器学习模型效率更高，通用性更好。在模块化表示的世界中，模块对应于物理因果机制，许多模块在不同的任务和环境中表现类似。因此，面对新环境或任务的agent可能只需要调整其内部世界表示中的几个模块即可。因此，在引入因果模型时，需要的实例应该更少，就可以不需要进一步训练去适应大多数知识。

因果关系视角A Causality Perspective

因果关系是一个微妙的概念，不能用布尔逻辑或概率推理的语言完全描述；它需要额外的干预概念（intervention）。因果关系关注的是一个事实，即条件概率（“看到人们打开雨伞表明正在下雨”）无法可靠地预测施加行为干预的结果（“关闭雨伞并不能阻止下雨”）。因果关系也可以被视为推理链的组成部分，它为与观察到的分布相差甚远的情况提供预测，甚至可能是纯粹的假设或需要有意识的思考。从这个意义上说，发现因果关系意味着获得可靠的知识，这些知识不仅支持观察到的数据分布和一组训练任务，还能扩展到涉及推理形式的情况。

贡献总结

在论文中，我们认为因果关系，其重点是表示数据生成过程中允许干预和更改的结构性知识，有助于理解和解决当前机器学习方法的一些局限性。这将使该领域更接近人工智能的一种形式。尽管统计学习取得了成功，但其只是提供了一种肤浅的现实描述，这种描述只有在实验条件固定的情况下才能成立。相反，因果学习领域试图结合数据驱动学习和尚未包含在统计描述中的假设，因果理论对干预和分布变化的影响进行建模。论文的工作是回顾并叙述了为因果学习做出过的关键贡献。

因果建模的层次

谈及对自然现象建模，可想到微分方程组。它根据时间的演变建模物理机制，可以让我们预测物理系统未来的行为，推断干预的效果以及预测变量间的统计相关性；还可以提供物理本质，让我们可以解读因果结构。

微分方程是对物理系统全面详尽的表述，统计模型(Statistical Model)可被看作表面的粗糙描述。它无法预测干预的效果，但是优点在于通常可以从数据中学习，而前者通常需要专家来提出。因果建模则存在于这两个极端之间，它期望能够像物理模型一样预测干预的效果，但同时可以在一些假设下，通过数据驱动的方法找到这样的模型，来取代专家知识。

下表给出了模型的分类与层级，并且给出了分级的依据：越高层的模型拥有更多更强的能力，这些能力从低到高分别是：在i.i.d.条件下预测的能力，在分布偏移/干预下预测的能力，回答反事实问题的能力，是否蕴含物理本质。接下来首先讨论这些能力，并在下一节具体解析统计模型与因果模型的区别。具体地说，基于统计模型的机器学习模型只能建模相关关系，而相关关系往往会随着数据分布的变化而变化；而因果模型所建模的因果关系则是更本质的，反映数据生成机制的关系，这样的关系是更鲁棒的，具有OOD泛化的能力。
fig2

在独立同分布条件下预测的能力

统计模型只是对现实的粗浅描述，因为它们只关注关联关系。对于样本和标签，我们可以通过估计来回答这样的问题：“这张特定照片中存在狗的概率是多少？”，“给定一些症状，心力衰竭的概率是多少？”。这样的问题是可以通过观察足够多样本产生的i.i.d.数据分布来回答的。尽管机器学习算法可以把这些事做得很好，但是准确的预测对于我们的决策是不够，而因果科学提供了一个尚未完全探索的补充。举例来说，鹳出现的频率是和欧洲的人口出生率正相关的，我们的确可以训练一个统计学习模型来通过鹳的频率预测出生率，但显然这两者并没有什么直接的因果关系。统计模型只有在i.i.d.的情况下才是准确的，如果我们做任何的干预来改变数据分布，就会导致统计学习模型出错。

在分布偏移或干预条件下预测的能力

我们进一步讨论干预问题，它是更具挑战性的，因为干预会使我们跳出统计学习中i.i.d.的假设。继续用鹳的例子，“在一个国家中增加鹳的数量会增加该国的出生率吗？”，就是一个干预问题。显然，人为的干预会使得数据分布发生变化，统计学习依赖的条件就会被打破，所以它会失效；另一方面，如果我们可以在干预的情况下学习一个预测模型，那么这有可能让我们得到一个对现实环境中的分布变化鲁棒的模型。实际上这里所谓的干预并不是什么新鲜事，很多事情本身就是随时间变化的，例如人的兴趣偏好，或者模型的训练集与测试集本身就有分布的不匹配。对神经网络的鲁棒性，已经有越来越多的关注，成为了一个与因果推断紧密连接的研究话题。作者认为对于在分布偏移下预测的研究不能只局限于在测试集上取得高准确率，如果我们希望在实际决策中使用学习算法，那么我们必须相信在实验条件改变的情况下，模型的预测也是有效的。笔者认为，作者在此处的意思是，实际应用中的分布偏移是任意多样的，仅仅在某些测试集上取得好效果不能代表我们可以在任何情况下都信任该模型，它可能只是恰好符合这些测试集的偏置。

为了使我们可以在尽可能多的情况下信任预测模型，就要采用具有回答干预问题能力的模型，至少统计学习模型是不行的。

回答反事实问题的能力

反事实问题涉及到推理事情为什么会发生，想象不同行为的后果，并由此可以决定采取何种行为来达到期望的结果。回答反事实问题更加困难的，但也是对于AI非常关键的挑战。如果一个干预问题是 “如果我们说服一个病人规律的锻炼，那么它心力衰竭的概率会如何变化？”，那么对应的反事实问题就是 “如果这个已经心力衰竭的病人一年前就开始锻炼，那他还会心力衰竭吗？”。显然回答这样的反事实问题对于强化学习中的智能体是很重要的，它们可以通过反思自己的决策，制定假说，再通过实践验证，就像科学研究一样。

数据的性质：观测，干预，结构化与非结构化

数据格式在可以推断的关系类型中起着重要作用。我们可以区分数据模式的两个轴：仅观测的与被干预的；以及手工设计（结构化）与原始（非结构化）输入。

对于Observational and Interventional Data：

通常假设但很少严格可用的极端形式的数据是i.i.d.观测数据，其中每个数据点从同一分布中独立取样。另一个极端是被干预的干预数据，我们观察从多个分布中取样的数据集，每个分布都是已知干预的结果。
而在这两者之间，我们可以想象存在域变化且未知干预的数据，首先这是观察性的，因为数据只是被动观察的，同时它是干预性的，因为存在干预，但我们不知道。

对于结构化与非结构化数据：

在传统的AI中，数据常被假设为高层有语义的结构化变量，它们有些可能对应着潜在的因果变量。而非结构化原始数据是指那些无法直接提供因果信息的数据，例如图像。

尽管统计模型比因果模型要弱，但是统计模型可以同时有效地在结构化或者非结构化学习。另一方面，尽管只从观测数据中学习因果关系的方法是存在的，但常常还是需要从多个环境中收集数据，或者需要能够做干预。至此，我们已经可以明白问题的核心：因果模型具有回答干预问题和反事实问题的能力，然而只能用于结构化的数据（就像专家系统），ML模型虽然可以从raw data中有效的学习，但却逃不出i.i.d.的设定，那么如何将两者结合，使机器学习突破当前的瓶颈呢？答案即因果表征学习，即从非结构化的数据中提取出可以用于因果推断的结构化变量。换言之，如果解决了因果表征学习的问题，就克服了因果推断领域和机器学习领域间的最关键障碍，就可构建下一代更强大的AI。

因果模型和推断

独立同分布数据驱动的方法

还是从传统机器学习模型谈起，机器学习的成功有4个重要的因素：

大量基于人工标注的数据；
强大的机器学习系统，如神经网络；
高性能计算系统，这对因果推断也至关重要；
问题是i.i.d.的；

对于i.i.d.的数据，统计学习理论对模型提供了强大的保证，因此取得超越人类的表现也不足为奇。但是却在对人类很简单的不满足i.i.d.的情景下表现很差，即在不同问题间迁移的能力。

为了进一步理解i.i.d.带来的问题，让我们考虑下面的例子。Alice在想在网上买一个笔记本电脑包，网上商店的推荐系统于是向Alice推荐了笔记本电脑。这个推荐看起来很不合理，因为很可能Alice是已经买了电脑才去买包。假设该网站推荐系统使用统计模型仅仅基于统计相关性来推荐，那么我们已知事件 “Alice买了包” 对于事件 “Alice是否会买电脑” 的不确定性减少，和已知事件 “Alice买了电脑” 对于事件 “Alice是否会买包” 的不确定性减少是相等的，都为两个随机事件的互信息。这就导致我们丢失了重要的方向信息，即买电脑往往会想买包。

从统计到因果

如何实现从统计相关到因果的跨越？Reichenbach表明：如果两个可观测量X和Y是统计相关的，那么一定存在一个变量影响X和Y，并且可以解释它们之间全部的相关性，即给定Z，X和Y是条件独立的。

上述原理包含Z与X或Y重合的特殊情况。用前面鹳的例子，鹳出现的频率为X，出生率为Y，二者统计相关。如果鹳能带来孩子则是X $\rightarrow$ Y，孩子会吸引鹳则是X $\leftarrow$ Y，有其他因素导致两者相关则为X $\leftarrow$ Z $\rightarrow$ Y。没有额外的假设，我们不能从观察数据中根据统计相关性区分这三种情况，所以因果模型比统计模型包含更多信息。

尽管只有两个变量情况下的因果发现很困难，但是在有更多变量的情况下则会简单很多，因为多变量情况下，因果图会蕴含更多条件独立性质。这会将Reichenbach Principle推广到接下来介绍的因果图模型或结构因果模型。

结构因果模型

结构因果模型（Structural causal models，SCM），是考虑一系列变量 $X_{1},...,X_{n}$ 作为有向无环图的顶点，每个变量值都由如下结构方程确定： $X_{i}=f_{i}(PA_{i},U_{i})$ 其中， $f_{i}$ 为确定型方程，其依赖于 $X_{i}$ 的父节点 $PA_{i}$ ， $U_{i}$ 是无法解释的随机变量。因此反过来证明， $X_{i}$ 也是随机变量。图中的有向边代表直接的因果效应。噪声 $U_{i}$ 的存在使得上式可以表示为通用的条件概率形式 $P(X_{i}|PA_{i})$ ，并且 $U_{1},...,U_{n}$ 是相互独立的，否则根据Reichenbach Principle可以得知还存在其他变量造成它们的相关性，这代表模型不是因果充分的。

当确定了 $U_{1},...,U_{n}$ 的分布，就可以根据这个有向图结合马尔可夫性计算联合概率分布 $P(X_{1},...,X_{n})$

SCM中的有向图被称为因果图模型（Causal Graph），噪声的独立性蕴含了联合分布的规范分解，称之为因果解耦或分解（causal(disentangled) factorization）： $P(X_{1},...,X_{n})=\prod_{i=1}^{n}P(X_{i}|PA_{i})$ 上述的因果图模型其实需要一个因果充分性假设，即不存在未观察到的共同原因变量。若该假设不满足，则会让因果推断变得很困难。因为它可能会让两个因果无关的可观测变量产生统计相关性，或者它们之间的因果关系被混淆因子所污染（X是Y的因，Z是X和Y的共同因，则Z被称为混淆因子confounder，注意在广义上，X也可以称为混淆因子）。

对于干预，形式是多样的，可以改变 $U_{i}$ ，设置 $X_{i}$ 为定值，改变 $f_{i}$ 的形式。

统计模型，因果图形模型和SCM之间的差异

统计模型可以被定义为一个图，图中变量的概率分布与因果图模型一样可以由马尔可夫性进行分解，但图中的边不一定是因果关系的。

如下图所示：统计模型（左）和因果模型（右）在给定的三个变量集上的差异。统计模型指定了一个单一的概率分布，但因果模型表示一组分布，每个可能的干预对应一个分布（图中用黑色的符号表示）

因果图允许计算干预的分布，当一个变量被干预时，就把它设为固定值，并且切断与其父母节点的边，在新的图中计算出的即为该干预的分布。

结构因果模型则包含因果变量和带有独立噪声的结构方程，也可以计算干预分布，因为它可以表达成因果图模型的概率分解的形式，也可以进行反事实推理。在进行反事实推理的时候，我们需要噪声变量的值固定。
fig3
统计学习的基础是联合分布 $P(Y,X_{1},...,X_{n})$ ，期望通过特定的模型在iid假设下学习 $E [Y ∣ X]$ ，因果学习需要考虑更多假设，希望把联合分布进行因果分解。

独立因果机制

在噪声 $U_{i}$ 独立的情况下，根据因果图对联合分布进行因果分解总是可行的，为此需要考虑因子独立机制。考虑海拔A和平均气温T，A和T显然是相关的，因为我们知道海拔升高会导致气温降低，假设有两个数据集分别来自瑞士和奥地利，它们各自的联合分布 $P (A, T)$ 是不同的，因为边缘分布 $P (A)$ 是不同的，但是条件概率 $P (T ∣ A)$ 理论上是相同的，因为这是海拔对气温影响的物理机制。因果分解 $P (A) P (T ∣ A)$ 包含了可以在不同地区泛化的 $P (T ∣ A)$ 。对因果模型来说，对任意变量 $X_{i}$ 或 $P(X_{i}|PA_{i})$ 的干预不会影响其他变量，即为因果独立机制。

一个系统的变量的因果生成过程是由一系列自主模块构成的，它们不会影响彼此，也不会提供彼此的信息：

改变（干预）一个机制 $P(X_{i}|PA_{i})$ 不会改变其他机制 $P(X_{j}|PA_{j})$ ，注意 $i\neq j$ ；
机制 $P(X_{i}|PA_{i})$ 不会给机制 $P(X_{j}|PA_{j})$ 提供任何信息，注意 $i\neq j$ ；

在因果图中，所有因果机制独立的情况下，变量是相关的，比如 $X_{i}\rightarrow X_{j}$ ，则 $X_{i}$ 和 $X_{j}$ 是相关的，但 $P(X_{i}|PA_{i})$ 和 $P(X_{j}|PA_{j})$ 是独立的。同样，噪声 $U_{i}$ 的独立性与 $X_{i}$ 的独立性是无关的，噪声只是提供了机制 $P(X_{i}|PA_{i})$ 的不确定性，并让不同机制有相互独立的不确定性。

因果发现与机器学习

前面的内容是因果模型，和基础的因果假设与因果机制，下面需要让机器学习因果模型，即因果发现。我们可以通过在观测数据中进行条件独立测试来发现因果图。但是这种方法存在一些问题：

一是数据量总是有限的，而条件独立测试是很难的，尤其是在连续和高维的情况下，没有额外的假设，条件独立测试很难进行；
二是条件独立测试可能会产生无法分辨边方向的马尔可夫等价类。

近年来通过假设结构方程的类型，我们发现这两个问题都可以被解决。下面的例子，可以很好地说明为什么假设SCM中的方程形式是必要的。考虑一个简单的SCM，只有两个变量 $X\rightarrow Y$ ，则 $X_{i}=f_{i}(PA_{i},U_{i})$ 可以写为： $X = U, Y = f (X, V)$ 且 $U\bot V$ ，假设 $V$ 是一个随机选择变量从 $F=\left\{f_{v}(x)=f(x,v)|v\in supp(V)\right\}$ 决定 $f$ ，且 $f (x, v)$ 依赖于 $v$ ，所以，从有限的数据中难以发现SCM的足够信息。因为 $V$ 是不可观测的，且 $f$ 是任意不同的。所以要限制 $f$ 关于 $V$ 的复杂度，一个自然的方法是加噪声： $X = U, Y = f (X) + V$ 对函数形式的限制不仅使得 $f$ 的学习变得容易，还被发现可以打破双变量情况下的因果对称性，即可以确定马尔可夫等价类中边的方向。

不同环境的分布偏移可以极大的帮助我们辨识因果结构。这些环境可以来自于干预、不平稳的时间序列或者不同的视角。不变因果预测（Invariant Causal Prediction，ICP）框架就是考虑这样的情形。这些不同的环境可以理解为不同的任务，这可以联系到元学习meta learning。

Bengio的工作就借助因果模型应该比一般的预测模型更快的适应干预这样的思想，把元学习中的泛化与因果模型的不变形绑定在一起。这项工作提出了一个用神经网络进行因果发现的框架。也有人探索了如何用强化学习来学习因果模型。

上述的所有因果发现的方法，不论传统的还是结合机器学习的，都是在有语义的抽象表征已经给定的情形，不需要从高维的低层次的数据中学习。所以传统的因果发现算法无法应用在机器学习领域的数据上。若想利用因果推断来解决当前机器学习领域的难题，从非结构化数据中学习因果变量是一个绕不开的关键问题。

学习因果变量

为此，我们将因果变量 $S_{1},...,S_{n}$ 与观测量 $X$ 通过因果表征学习联系起来： $X=G(S_{1},...,S_{n})$ 其中， $G$ 是一个非线性函数，如下图所示，高维的观测量（图像）是由未知的因果系统的状态产生，然后我们希望用一个神经网络提取这些高层变量，以求在下游任务中取得更好的效果。在什么条件下我们可以找到这些可以用于因果模型的粗略变量呢？解答这个问题是很有挑战的。定义因果关联的对象或变量，可以被归结为估计这个世界的更细致的模型，例如微观结构方程模型、常微分方程、temporally aggregated time series等。定义可用于因果模型的单元，对人和机器都是有挑战的，这与现代机器学习领域试图学习鲁棒、可解释、公平的数据表征的目标是一致的。
fig4
我们应该尝试将SCM嵌入到机器学习模型中，它的输入输出可能是高维非结构化的，但内部有一部分是由SCM决定的。这样的模型可能会是模块化的架构，不同的模块可以被微调或用于新的任务。

下图展示了：对因果变量稀疏的干预（改变个别变量），会造成图像中稠密的变化（很多像素发生变化），在有些情况下，例如改变光照或视角，会导致所有像素都变化。
fig3
接下来我们考虑因果表征学习的三个机器学习问题。

学习解耦的表征

首先回顾因果解耦： $P(S_{1},S_{2},...,S_{n})=\prod_{i=1}^{n}P(S_{i}|PA_{i})$ 现在设想，我们要利用数据中的独立机制重建解耦的表征，但是因果变量 $S_{i}$ 都未给定，只有 $X=(X_{1},...,X_{d})$ 是给定的，我们想重建因果变量 $S_{1},...,S_{n}(n<<d)$ 和因果机制 $S_{i}=f_{i}(PA_{i},U_{i})$ 。

为此，我们可以有一个编码器 $q:R^{d}\rightarrow R^{n}$ ，将 $X$ 编码为组成不可解释噪声项 $U=(U_{1},...,U_{n})$ 的隐式表征。接下来我们定义函数 $f (U)$ ，它是由结构方程 $f_{1},f_{2},...,f_{n}$ 确定的。最后我们还需要解码器 $p:R^{n}\rightarrow R^{d}$ 。对于一个合适的 $n$ ，系统可以通过重建误差来训练 $p\circ f\circ d\approx id$ ，其中 $\circ$ 表示模型的连接，id为观测数据的分布。

当前的学习解耦表征的研究关注独立变化的因子，这可以被看成一种特例，即因果图中 $\forall i:PA_{i}=\emptyset$ 。

目前，从iid设定下重建噪声的问题是定义不清的，因为有无数的等价解可以对应相同的数据分布。在实践中，在 $\forall i:PA_{i}=\emptyset$ 情况下，我们应该从多环境，不同干预数据中学习因果变量。当然，那些因子可以被分解取决于我们有什么样的干预。在因果表征学习中，哪些变量可以被抽象出来以及它们的粒度，取决于我们获取到什么样的分布偏移，或干预信号。

注意 $X_{i},S_{j}$ 均是向量，其元素数为数据集的样本数量，也就是说，因子其实是数据的一个个特征，发现因果关系则是要求我们要学习特征之间的关系，另外，我们需要找到可解释的因子，也就是可解释的特征

学习可迁移的机制

人工或自然的智能agent只能得到有限的资源和信息，这有关训练数据：与现代工业实践中的大规模人工标注相比，许多领域的数据都很少，所以需要重复利用数据；也有关计算资源：动物的大脑尺寸是有限的，进化神经学表明在很多例子中，脑区可以用于不同的目的。在很多应用场景中，部署在嵌入式系统中的机器学习模型也面临这样的算力限制。所以未来的AI模型应该拥有动物一样，可以鲁棒解决一系列现实问题，因此也应该有相似的可复用的组件。一个优雅的方法则是使用可以对应世界中模块化的模型，换句话说，如果世界是模块化的，包括它的成份、机制，那么模型采用相应的模块是明智的。例如，在模式识别任务中，学习包含独立机制的因果模型，可以帮助模型在不同领域迁移。

学习现实中的干预

因果表征学习应该要比传统的只关注统计相关性的表征学习更进一步，我们要去学习支持干预、决策、推理的模型。这最终需要反思行为，想象可能的情况，甚至可能需要自由意志。这对社会和文化学习是至关重要的，是一个尚未登上机器学习领域舞台，但却是人类智能的核心。

对机器学习的启发

上述的所有关于学习范式的讨论，都没有基于常用的i.i.d.假设。因此，我们需要一个更弱的假设：模型将要被应用的数据是来自不同的分布，但设计几乎相同的因果机制。这会带来几个严肃的挑战：

我们需要从给定的低层次输入特征中抽象因果变量；
哪方面的数据可以揭示因果关系尚无共识；
传统的实验方案不足以推断和评估因果模型，我们需要新的基准测试；
即使是在我们了解的有限案例中，仍然缺乏可大规模使用的算法；
尽管如此，这样的努力对于机器学习有很多具体的影响。

个人总结

因果学习目前还是一个尚未成熟的领域，我们想要实现模型具有完全ood的泛化性能，虽然我们知道构建因果图的重要性，但是目前看来，因果图是来自专家的知识，我们很难让机器从观测数据中正确发现因果图，虽然数据增强，大规模预训练一定程度上可以涵盖各种分布，但它们依然不能帮模型探索到我们需要的因果关系。而且换一个说法，我们现在的挖掘是基于因子独立的假设，也就是说这样的因果图其实是最简单的因果图，但依然存在无数可以匹配到训练分布的解，也许我们的当务之急是能找到具有可解释意义的独立因子，从而缩小解的空间，让模型在相关任务的ood泛化上成为可能。