《因果学习周刊》第1期:因果学习的分布外泛化问题

No.01

智源社区

因果学习组

 习

研究

观点

资源

活动

关于周刊

因果学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写了第1期《因果学习周刊》。

本期周刊将主要讨论分布外泛化相关的研究。现代机器学习技术在计算机视觉、自然语言处理和推荐系统等领域表现出了卓越的能力。尽管许多方法在实验条件下表现出了超越人类的水准,但一些研究也揭示了机器学习模型在存在分布偏移下的脆弱性。如此巨大的差距源自于违反了训练和测试数据是独立同分布的基本假设(又名i.i.d.假设),而大多数现有的学习模型都是基于这个假设设计开发的。在许多难以满足独立同分布假设的实际案例中,尤其是医疗、军事和自动驾驶等高风险应用中,与训练分布内的泛化能力相比,分布偏移下的泛化能力更为重要。因此,对分布外泛化问题的研究在学术界和工业界都具有重要的现实意义。本期主要介绍了分布外泛化问题(Out-of-Distribution Generalization)相关的一些方法,以不变学习方法为主,最后还介绍了一篇最新的分布外泛化问题综述文章。

 

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动因果科学社群的分享、学习和交流活动。可以扫描文末的二维码加入因果学习社区群。

 

本期贡献者:刘家硕

论文推荐

标题:NYU & Facebook | Invariant Risk Minimization(不变性风险最小化)了解详情

简介:现今的机器学习面临着一个基本问题,虽然可以通过将训练数据上的误差最小化来学习复杂的预测模型,但实际中数据往往会受到样本选择性偏差(selection bias)、混杂因素(unobserved confounder)和其他因素的影响。因而机器也会受到这样的数据偏差的影响,对于人工智能的实现带来极大的制约。更具体地说,最小化训练误差会导致机器不计后果地吸收训练数据中发现的所有相关性。而我们需要知道数据中的哪些相关性是有用的,这也被称为相关关系与因果关系的“选择困境”,因为源自于数据偏差的虚假相关性与预测目标之间不存在因果关系,使用这样的虚假相关来进行预测是有害的。本文利用因果关系的工具来对数据中的虚假相关性与不变性进行刻画,并提出了不变性风险最小化算法(Invariant Risk Minimization)来减轻模型对数据偏差的过度依赖,使它们能够泛化到新的测试分布。

推荐理由:本文是进来备受关注的不变学习(invariant learning)的开山之作,从因果推断的方法逐步演变出了不变学习方法,对后续研究十分有启发。

论文地址:https://arxiv.org/pdf/1907.02893.pdf

 

标题:Mila | Out-of-Distribution Generalization via Risk Extrapolation (ICML21)了解详情

简介:在将机器学习预测模型从实验室转移到真实场景时,分布偏移(distributional shifts)是主要障碍之一。为了解决这个问题,我们假设跨训练环境的变化可以反映测试时数据分布的变化,但在测试时分布的变化可能更加极端。特别地,我们提出,减少训练环境间风险的差异可以降低模型对各种极端分布变化的敏感性,可以解决输入中同时包含因果变量和反因果变量的挑战性设定。我们提出了风险外推法(Risk Extrapolation, REx),是建立在外推域扰动集(MM-REx)上的一种鲁棒优化算法,并提出将训练风险方差作为惩罚项(V-REx)的变体算法。我们证明了V-REx可以恢复目标变量的因果机制,同时也提供了对输入分布变化(“协变量位移”)的鲁棒性。通过对因果诱发的分布偏移和协变量偏移的鲁棒性进行平衡,当这些类型的偏移同时发生的情况下,REx能够比其他方法(如不变风险最小化, Invariant Risk Minimization)表现得更好。

推荐理由:本文提出了创新性的“负权重”来实现分布之间的外插,从而实现更好的分布偏移下的泛化性能,后续也有一些方法在此基础上进行改进与拓展。

论文地址:http://proceedings.mlr.press/v139/krueger21a/krueger21a.pdf  

 

标题:IBM Research | Invariant Risk Minimization Games (ICML20)了解详情

简介:当机器学习的测试分布由于虚假关联(spurious correlation)而与训练分布不同时,使用经验风险最小化方法优化的的机器学习模型性能会受到较大影响。利用多个环境的数据来找到不变的预测因子的方法,通过使模型仅使用与结果有因果关系的特征,减少了虚假关联的影响。在这篇文章中,我们提出了一个不变风险最小化方法,即在多个训练环境中寻找集合博弈的纳什均衡点。通过这样做,我们利用最佳响应动力学设计了一种简单的训练算法。在我们的实验中,与Arjovsky等人(2019)提出的Invariant Risk Minimization(IRM)相比取得了相似或更好的平均预测性能以及更小的方差。此外,理论上证明了所提出的对策的纳什均衡集等价于任何有限数量的环境的不变预测器集,即使存在非线性分类器和变换。因此,本方法保留了IRM对于分布偏移下的泛化性能保证。本算法是博弈论机器学习算法的又一成功范例。

推荐理由:本文在IRM的基础上,使用博弈论的方式来进一步进行解释,并证明了不变预测集与纳什均衡集之间的等价性,具有很好的理论价值。

论文地址:http://proceedings.mlr.press/v119/ahuja20a/ahuja20a.pdf

 

标题:Preferred Networks|When is invariance useful in an Out-of-Distribution Generalization problem?了解详情

简介:分布外泛化问题(Out-of-distribution Generalization, OOD)的目标是训练一个能在所有环境中泛化的预测器。该领域的流行方法假设了这样的预测器必须是一个不变的预测器,以捕获跨环境保持不变的预测机制。虽然这些方法已经在不同的研究中取得了实验上的成功,但对这一假设的理论验证仍有很大的空间。本文提出了一组新的理论假设,使不变预测器可以实现OOD最优性(OOD optimality)。我们的理论不仅适用于非线性情况,而且推广了先前工作(Invariant models for causal transfer learning)中的必要条件。我们还提出了Inter Gradient Alignment算法,并在由MNIST派生的数据集以及三种不变性单元测试中的两种上证明了算法的有效性。

推荐理由:本文理论上系统地分析了现有不变学习方法的假设强度,并且从理论上放松了之前的不变性假设,提出了对应的方法,具有很好的理论价值。

论文地址:https://arxiv.org/pdf/2008.01883.pdf

 

标题:清华 | Heterogeneous Risk Minimization(异质性风险最小化, ICML21)了解详情

简介:使用经验风险最小化(Empirical Risk Minimization)的机器学习算法,由于对训练数据之中的一切相关性的贪婪利用,在测试分布与训练分布间具有分布偏移时,通常测试数据中的泛化性能会受到较大影响。近年来,针对非独立同分布的情况,人们提出了一些利用多种训练环境来寻找不变量关系的不变学习方法。然而,现今的数据集经常是多个数据源的数据的混合,却没有显式的数据源标签。由此带来的潜在的异质性使得绝大多数的不变学习方法难以适用。在本文中,我们提出了异质性风险最小化(Heterogeneous Risk Minimization, HRM)框架,以实现对数据之间潜在异质性和不变性关系的联合学习,从而在存在分布偏移的情况下实现稳定的预测。我们从理论上阐明了环境标签在不变学习中的作用,并证明了我们新提出框架的合理性。大量的实验结果验证了本算法的有效性。

推荐理由:本文立足于一个更加具有挑战性的问题设定,即如何使用数据中潜在而非显式的异质性来指导不变学习,并首次理论上分析了环境标签对于不变学习算法的影响,所提出的异质性风险最小化框架同时实现了对于数据中潜在异质性的挖掘以及不变关系的学习。对于Out-of-distribution Generalization(OOD)问题后续的研究,以及环境对于OOD问题作用的研究有着重要的作用。

论文地址:https://arxiv.org/pdf/2105.03818.pdf

标题:北大 华为|Towards a Theoretical Framework of Out-of-Distribution Generalization了解详情

简介:对非独立同分布数据的泛化问题(Out-of-distribution Generalization)是现代机器学习的核心问题之一。最近,有大量的工作提出基于提取不变特征思想的OOD算法。虽然直观上是合理的,但是对于什么样的不变性可以保证OOD泛化的理论理解仍然是有限的,并且泛化到任意的分布显然是不可能的。在这项工作中,我们对于(1)什么是OOD泛化问题(2)OOD问题什么情况下是可学习的 给出了严格的定量的定义。我们还引入了一个扩展函数的新概念,它描述了测试域的方差在训练域会被多大程度上放大,从而给出了不变特征的定量含义。在此基础上,我们证明了OOD泛化误差界。结果表明,OOD泛化在很大程度上依赖于扩展函数。正如最近有文章指出的,任何没有模型选择模块的OOD学习算法都是不完整的。我们的理论自然地引出了一个模型选择标准。在基准OOD数据集上的实验表明,我们的模型选择标准比现有方法具有显著的优势。

推荐理由:本文对于OOD泛化问题提出了一个整体的分析框架,从可学习性的角度给出了OOD泛化可学习性的定义并加以分析,基于分析的结果提出了一种OOD场景下的模型选择准则,具有很好的理论价值。

论文地址:https://arxiv.org/pdf/2106.04496.pdf

标题:Facebook | Linear unit-tests for invariance discovery(独立性发现的线性单元测试)了解详情

简介:人们对跨训练环境学习数据中不变相关性的算法越来越感兴趣。目前的大部分算法在因果相关的文献中找到了理论支持,但它们在实践中有多大用处呢? 本文提出了六个线性低维问题作为“单元测试”,即以精确的方式评估不同类型的分布外泛化(Out-of-distribution Generalization)。经过初步试验,最近提出的三种算法没有一种能通过所有测试,我们希望我们提出的单元测试能够成为研究人员在非分布泛化方面的基准数据集。 

推荐理由:该论文提出了一系列的模拟实验设定,来评估不同算法对于不变关系寻找的准确程度,对于OOD泛化问题的研究有着重要的作用。

论文地址:https://arxiv.org/pdf/2102.10867.pdf

 

研究动态

清华大学计算机系崔鹏团队发布首篇OOD泛化问题综述了解详情

近日,清华大学计算机系崔鹏团队发布了首篇OOD泛化问题综述:Towards Out-of-Distribution Generalization: A Survey。

简介:经典的机器学习方法是建立在独立同分布假设的基础上的。然而在真实场景中,独立同分布假设很难得到满足,导致经典机器学习算法在分布偏移下的性能急剧下降,这也表明研究分布外泛化问题的重要性。分布外泛化(Out-of-Distribution Generalization)问题针对测试分布未知且与训练不同的具有挑战性的问题设定。本文首次系统、全面地探讨了分布外泛化问题,从问题的定义、方法、评价到未来发展方向。首先,本文给出了分布外泛化问题的形式化定义;其次,根据现有方法在整个学习流程中的位置,将其分为无监督表示学习、有监督模型学习与优化方法三部分,并详细讨论了每一类中的典型方法;然后,我们展示了不同类别方法间的理论联系,并介绍了常用的数据集和评价指标;最后,对全文文献进行了总结,并对分布外泛化问题提出了未来的研究方向。

推荐理由:本文首先系统、全面地探讨了分布外泛化问题,将不同流派的方法汇集到一起,介绍了其中的典型方法,并分析了之间的理论联系。此外,本文总结了分布外泛化问题常用的数据集与评价指标,对于未来分布外泛化问题的研究具有很强的启发意义。

论文地址:

https://arxiv.org/abs/2108.13624

论文中综述OOD泛化方法文章总结:http://out-of-distribution-generalization.com

如果你正在从事或关注 因果学习研究、实现与应用,欢迎加入“智源社区-因果学习-交流群”。在这里,你可以:

 

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

扫描下方二维码,加入因果学习兴趣群。


  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值