《因果学习周刊》第3期：从因果学习到不变学习方法

智源社区

于 2021-11-10 18:10:00 发布

阅读量617

点赞数 1

文章标签：算法大数据 python 计算机视觉机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzU5ODg0MTAwMw==&mid=2247505114&idx=2&sn=a7b8931d77a8c7f162925eddfbc17783&chksm=febc971ec9cb1e0875b000de6398c0701bfde2e9167aef2a4ab94a9eaea364d3ab171b3fdab5&scene=126&&sessionid=0

版权

No.03

智源社区

因果学习组

因

果

学

习

研究

观点

资源

活动

关于周刊

因果学习作为人工智能领域研究热点之一，其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯，智源社区结合领域内容，撰写了第3期《因果学习周刊》。

本期周刊推荐的8篇论文，延续了第1期周刊中关于解决分布外泛化问题(Out-of-Distribution Generalization)的不变学习方法的介绍，包含了不变学习方法最新的进展。这类方法提出了从数据中学习具有因果不变性质的表征或模型，使得模型对于分布偏移具有很好的抵抗作用，对于机器学习模型走向应用，特别是高风险领域，有着很关键的推动作用。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动因果学习社群的分享、学习和交流活动。可以扫描文末的二维码加入因果学习社区群。

本期贡献者：刘家硕

论文推荐

标题：CMU | The Risk of Invariant Risk Minimization了解详情

简介：不变因果预测(Invariant Causal Prediction)是一种分布外泛化算法，它假设数据分布的某些方面在训练集中有所不同，但潜在的因果机制保持不变。最近，Arjovsky等人提出了不变风险最小化算法(IRM)，该算法的目标是学习潜在的不变特征;之后基于这个方法也提出了许多替代方案。然而，所有这些方法都严重缺乏理论上的保证。在本文中，我们对于IRM算法的目标给出了第一个对于分类问题的分析。在线性情况下，我们给出了最优解成功的简单条件，或是更常见的情况，无法得到最优不变预测器。我们进一步给出了非线性条件下的首个结果:我们证明了IRM可能会灾难性地失效，除非测试数据与训练分布足够相似——而这又正是IRM想要解决的问题。因此，在这种情况下，我们发现IRM和它的替代方案根本没有改善传统的经验风险最小化算法。

接收会议：ICLR 2021

推荐理由：本文从理论上严格分析了IRM算法，给出了线性与非线性情况下最优解的存在条件，并且理论上说明了IRM对于环境数目过度依赖的问题

论文地址：https://arxiv.org/abs/2010.05761

标题：Stanford & CMU | Iterative Feature Matching: Toward Provable Domain Generalization with Logarithmic Environments了解详情

简介：领域泛化的目标是使用来自有限的数据来保证在不可见的测试环境中的模型泛化性能。尽管针对此任务的算法越来越多，但从理论上和实践上评估它们的实际泛化性能仍然非常具有挑战性。此外, 最近的方法例如不变风险最小化(IRM)需要大量的训练环境——环境数目关于虚假相关特征的维度(d_s)是线性的——即使在Rosenfeld等人提出的简单数据模型上也是如此。在Rosenfeld等人提出模型的变体下，我们证明了ERM和IRM都不能在O(d_s)环境下推广。然后，我们提出了一种基于执行迭代特征匹配的新算法，该算法保证了在只看到O(log d_s)环境下模型的泛化能力。

推荐理由：在之前Rosenfeld等人工作的基础上，提出了将IRM的环境复杂度从线性降至对数级别的算法，十分具有借鉴意义

论文地址：https://arxiv.org/abs/2106.09913

标题：Mila | Invariance Principle Meets Information Bottleneck for Out-of-Distribution Generalization了解详情

简介：来自因果关系的不变性原则是诸如不变风险最小化(IRM)等方法的核心，这些方法试图解决分布外泛化问题(Out-of-Distribution Generalization Problem)。尽管这个理论很有潜力，但基于不变原理的方法在普通的分类任务中效果不佳，这其中不变(因果)特征捕获了关于标签的所有信息。然而这些失败是由于方法未能捕获不变性特征造成的吗? 还是不变性原则本身就不够? 为了回答这些问题，我们回顾了线性回归任务中的基本假设，其中基于不变的方法被证明可以做到分布外泛化。与线性回归任务相比，我们证明，对于线性分类任务，我们需要对分布偏移有更强的限制，否则分布外泛化是不可能的。此外，即使有适当的分布位移限制，我们也证明了仅靠不变性原理是不够的。我们证明，当不变特征捕获关于标签的所有信息时，一种形式的信息瓶颈约束和不变性原理结合有助于解决关键故障，并且即使在它们没有捕获到有关标签的所有信息时，也能维持现有的分布外泛化性能。我们提出了一种结合这两种原则的方法，并在几个实验中证明了它的有效性。

推荐理由：本文将不变学习与信息瓶颈结合了起来，并给出了一系列的模拟实验来说明其必要性，十分具有借鉴意义。

论文地址：https://arxiv.org/abs/2106.06607

标题：Columbia | Optimization-based Causal Estimation from Heterogenous Environments了解详情

简介：本文提出了一种新的因果估计优化方法。给定包含协变量和目标变量的数据，哪些协变量是目标变量的原因，因果关系的强度是什么? 在经典机器学习中，优化的目标是最大限度地提高预测精度。然而，一些协变量可能对结果表现出非因果关系。这种虚假的关联为经典的机器学习提供了预测的力量，但它们阻止了我们对结果的因果解释。本文提出了一种优化算法CoCo，它弥补了纯预测和因果推理之间的差距。CoCo利用了最近提出的环境、协变量/响应数据集的概念，其中因果关系保持不变，但协变量的分布在不同环境之间发生变化。给定来自多个环境的数据集——以及那些表现出足够异构性的数据集——CoCo最大化了一个目标，对于这个目标的唯一解是具有因果效应的解。我们描述了这种方法的理论基础，并在模拟和真实数据集上证明了它的有效性。与经典ML和现有方法相比，CoCo提供了更准确的因果模型估计。

推荐理由：本文提出了一个新颖的因果效应估计方法，具有很好的实用价值和理论价值。

论文地址：https://arxiv.org/abs/2109.11990

标题：ICLR投稿论文｜ON INVARIANCE PENALTIES FOR RISK MINIMIZATION了解详情

简介：不变风险最小化(IRM)原则最早由Arjovsky等人(2019)提出，通过利用来自不同实验条件的数据异质性来解决领域泛化问题。具体来说，IRM试图找到一种数据表示，在这种表示下，最佳分类器在所有领域中都保持不变。尽管IRM在概念上有吸引力，但通过一些模拟实验和反例，最初提出的不变性惩罚项的有效性最近受到了质疑。在这项工作中，我们研究了数据表示、不变性惩罚和风险之间的关系。为此，我们提出了一种新的不变性惩罚，并利用它设计了一种自适应规则，用于调整Arjovsky等人(2019)提出的惩罚系数。此外，我们提供了如何避免IRM的潜在失败的实际见解，在一些已有的反例中进行验证。最后，我们对模拟数据集和真实数据集进行了数值实验，来建立不变预测因子。在真实实验中，我们试图建立一个预测人类健康状况的指标，使用从各种研究中收集的数据集，这些研究调查了人类肠道微生物群和特定疾病之间的关系。我们在这些数据集上证实了我们提出的方法的有效性，从而进一步促进了IRM原则在其他真实应用中的落地。

推荐理由：本文从IRM的现有问题出发，提出了新的惩罚项，并给出了对于IRM失败情况的一些启发。

论文地址：https://arxiv.org/abs/2106.09777

标题：NeurIPS 2021 | Out-of-Distribution Generalization in Kernel Regression了解详情

简介：在实际应用中，用于训练机器学习模型的数据生成过程往往与模型在测试阶段遇到的情况不同。理解机器学习模型如何以及是否能在这种分布变化下进行泛化仍然是一个理论上的挑战。在这里，我们使用统计物理的复制方法研究了训练分布和测试分布不同时的核回归泛化。我们推导了适用于任何核数据集和真实数据集的分布外泛化误差的解析公式。我们确定一个重叠矩阵，量化给定核的分布之间的不匹配程度，作为分布偏移下泛化性能的关键决定性因素。使用我们的解析表达式，我们阐明了各种泛化现象，包括当存在分布不匹配时可能的泛化改进。我们设计了算法来优化给定数据预算的培训和测试分布，以找到移位下的最佳和最坏的泛化性能。我们将我们的理论的应用到了许多真实和合成数据集以及和许多核函数。我们将我们的理论应用于神经正切核的结果与宽神经网络的仿真结果进行了比较，得到了一致的结果。我们进一步分析了线性回归。

推荐理由：本文从核函数的角度分析了分布外泛化问题以及其难度，具有很好的理论价值和启发性。

论文地址：https://arxiv.org/pdf/2106.02261.pdf

标题：NeurIPS 2021 | Kernelized Heterogeneous Risk Minimization了解详情

简介：对于可靠的机器学习来说，分布转移下的泛化能力是必不可少的，而采用经验风险最小化优化的模型通常在非iid的测试数据下具有较差的泛化性能。近年来，针对分布外泛化的不变学习方法提出了在多环境下寻找因果不变关系的方法。然而，现代数据集往往是多源混杂的，且没有明确的源标签，这使得许多不变学习方法不适用。在本文中，我们提出Kernelized Heterogeneous Risk Minimization (KerHRM)算法，该算法既实现了核空间中的潜在异质性探索，又实现了核空间中的不变学习，然后通过指定不变梯度方向向原始神经网络反馈。我们从理论上解释了我们的算法，并通过大量的实验验证了我们的算法的有效性。

推荐理由：本方法将ICML2021中的Heterogeneous Risk MInimization方法推广到了核空间，使得可以处理更加复杂的数据与不变性关系。

论文地址：https://arxiv.org/pdf/2110.12425.pdf

标题：(ICML2021)Stanford | Just Train Twice: Improving Group Robustness without Training Group Information了解详情

简介：通过经验风险最小化(Empirical Risk Minimization, ERM)训练获得的模型可以实现较低的平均误差，但其对于数据内部的某些群体的误差较高，特别是在输入和标签之间存在虚假关联的情况下。之前控制最差子群体误差的一些方法，如分组分布鲁棒优化(Group Distributionally Robust Optimization, Group DRO), 需要对每个训练点标注其组别，而这会耗费很高的代价，不使用这种分组标签的方法则会获得更差的最差组泛化性能。在本文中，我们提出了一个简单的两阶段方法，Just Train Twice (JTT)，本方法最大限度地减少重加权数据集(第二阶段)的损失，在标准训练(第一阶段)结束时，我们增加了错误分类的训练样本的权重。直观上，这提高了标准ERM优化得到的模型在最坏组别下的泛化性能。在四个具有虚假关联的图像分类和自然语言处理任务中，我们发现JTT在标准ERM和Group DRO算法之间的最差组精度差距缩小了73%，而为了调整超参数，本方法只需要在一个小的验证集上进行组标注。

推荐理由：本文提出了一个实现起来很简单的加权方法来达到更好的分布外泛化性能。

论文地址：https://arxiv.org/abs/2107.09044

研究动态

智源LIVE丨智源因果社区：因果启发的稳定学习年度研究进展

简介：审视今天的机器学习模型，单纯关联统计的局限性带来稳定性、可解释性、公平性等一系列问题。如何将因果统计融入机器学习框架，是一个开放并有挑战的基础性问题，而稳定学习致力于寻找机器学习和因果统计的共同基础。2021年11月5日晚，「智源LIVE丨智源因果社区：因果启发的稳定学习年度研究进展」在智源社区线上召开，清华大学计算机系长聘副教授崔鹏、浙江大学计算机学院副教授况琨等6位来自因果稳定学习领域的学者重点介绍稳定了学习理论和方法的年度进展，及其在解决OOD泛化问题方面的机会和挑战。

报告详情、视频回放和PPT下载：

https://event.baai.ac.cn/activities/181