《因果学习周刊》第2期:因果表征学习

关于周刊
文章来源:智源社区
因果学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写了第2期《因果学习周刊》。
本期周刊将主要讨论因果表征学习的相关研究。传统的因果发现通常是直接从结构化变量数据出发,研究变量之间的因果关系,但在实际应用中,大量的数据都是非结构化的,例如图片、文本等等;并且,传统的因果发现方法在可扩展性上有较大的局限性,无法处理变量维数较高的情况。因此,传统的因果发现方法在许多场景下无法直接应用。而近年来,随着深度学习的一系列方法的出现,表征学习有了突破性的进展,深度学习在非结构化数据、高维变量数据上有了广泛的应用。于是,“因果表征学习”自然而然地开始得到关注。即:如何从非结构化数据中学出具有因果结构的表征变量。其中,解耦表征学习是实现因果表征学习的一种代表性思路。本期主要介绍了因果表征学习(Causal Representation Learning)相关的方法,也涉及到解耦表征学习(Disentangled Representation Learning)的一些方法,部分文章探讨了与分布外泛化问题(Out-of-Distribution Generalization)的关系。最后介绍了一篇今年较新的因果表征学习的综述文章。
周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动因果学习社群的分享、学习和交流活动。可以扫描文末的二维码加入因果学习社区群。
本期贡献者:禹含

论文推荐

标题:UCL & Huawei | CausalVAE: Disentangled Representation Learning via Neural Structural Causal Models (CVPR 2021)
简介:学习解耦表征的目的是找到一组低维表征,这组表征由多个可解释的、生成性的因素构成。VAE的框架已经被广泛用于从观测数据中解耦出独立的因素。然而,在现实情况下,有语义的因素不一定是独立的,反而可能有一套内在的因果结构使得这些因素是互相依赖的。本文继而提出了一个新的VAE框架,名叫CausalVAE,其中包含了一个因果层来将独立的外部变量转变为因果的内部变量,这些变量对应于数据中有因果关系的一些概念。本文进一步分析了模型的可识别性,表明提出的模型可以在一定程度上恢复真实数据。本文在多个数据集上做了实验,包括模拟数据和真实基准数据集CelebA。结果表明,CausalVAE学出的因果表征在语义上是可解释的,并且它们以有向无环图(DAG)呈现的因果关系的识别正确率是很高的。更进一步地,本文证明了提出的CausalVAE模型能够通过对因果变量实施“do操作”,产生反事实的数据。
推荐理由:将线性SCM与解耦表征学习相结合,是因果表征学习的一种实现方式。
论文链接:https://www.aminer.cn/pub/5ee7495191e01198a507f6a4?f=cs

标题:HKUST & Huawei | Disentangled Generative Causal Representation Learning
简介:本文提出了一种解耦生成式因果表征学习的方法。和现有的解耦方法会迫使隐变量独立不同,本文考虑的是更通用的情况,也就是潜在的感兴趣的变量之间有因果关系。本文展示了此前的使用独立分布作为先验的方法不能做到解耦有因果关系的变量。受到这一发现的启发,本文提出了一种新的解耦表征学习的方法,叫做DEAR,能够实现因果可控的生成和因果表征的学习。这一方法的关键在于使用一个结构因果模型(SCM)作为双向生成模型的先验分布。然后用生成器和编码器去进行训练,采用的是GAN的损失函数,并且融入了一些监督信号。本文对于提出的方法的可识别性和渐进一致性提供了理论上的正当性,保证了合适的条件下的解耦因果表征学习。本文在模拟数据和真实数据上都做了大量的实验,证明了DEAR在因果可控的生成中的有效性,以及下游任务中的样本有效性和分布鲁棒性所体现出的学到的表征的优势。
推荐理由:在预先获知因果图结构的情况下,将非线性的SCM融入了表征学习,是因果表征的一种实现方式。
论文链接:https://www.aminer.cn/pub/5f7d961d91e011346ad27e66?f=cs

标题:Cambridge & MPG | Nonlinear Invariant Risk Minimization: A Causal Approach
简介:受到虚假关联的影响,当测试环境的分布与训练阶段不同的时候,机器学习系统经常会泛化失败。此前的工作在处理这一问题时,或是显式处理或者隐式处理,一般都是试图找到一套表征,这套表征与目标变量之间有不变的因果关系,通常是利用多个不同的训练环境来削弱虚假特征的作用、构建出不变的模型。然而,这些方法仅在数据表征和分类器都是线性模型的时候,才能保证泛化。本文提出了不变因果表征学习(ICRL),是一种能够实现非线性情况(非线性表征和非线性分类器)下的分布外(OOD)泛化的学习范式。这一方法基于一个实用且通用的假设:给定目标变量和环境变量为条件时,数据表征的先验分布是可分解的。基于此,本文展示了在简单变换下,数据表征是可识别的。本文还证明了目标变量的所有直接原因都可以被发现,这进一步使得能够在非线性情况下获得泛化保证。本文在模拟数据集和真实数据集上都做了大量实验,表明提出的方法要显著优于许多基准线方法。最后,在总结部分的讨论中,本文进一步探究了此前提出的假设,并提出了一个通用的视角,叫做“未知假设”:存在一套隐藏的因果变量,既影响输入也影响输出。就表征学习而言,未知假设可以为机器学习提供一个统一的视角,不论是有监督的、无监督的还是强化学习。更重要的是,它可以启发一个新方向去探究识别隐藏因果变量的通用理论,而这正是机器学习中的OOD泛化的关键。
推荐理由:尝试了为非线性情况下的OOD泛化提供理论保证和算法。
论文链接:https://www.aminer.cn/pub/60378f7891e011d7c73cd59e?f=cs

标题:ETH & MPI | Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations (ICML 2019)
简介:解耦表征的无监督学习背后的核心思想在于,真实世界的数据是通过一些可解释的变量生成的,这些变量可以通过无监督学习的算法恢复出来。在本篇论文中,将会冷静地看待这一领域的最新进展,并对一些常见的假设提出挑战。本文首先从理论上证明了:在对模型和数据没有归纳偏置的情况下,解耦表征的无监督学习是不可能实现的。然后,本文在实验中训练了超过12000个模型,覆盖了大多数常用的方法和评价指标,在七个不同的数据集上进行了大规模可复现的实验。我们注意到,当不同的方法成功地让模型获得对应的损失函数所“鼓励”的性质时,解耦效果好的模型似乎并不能在没有监督信号的情况下被识别出来。进一步地,解耦效果好,似乎并不会让下游任务学习中的样本复杂度的下降。本文的结果表明,解耦学习领域未来的工作应当对归纳偏置和(隐式的)监督信号所扮演的角色更加清晰明确,探究解耦对于学到的表征的具体好处,并在做实验时考虑在多个数据集上进行可复现的实验。
推荐理由:ICML 2019 best paper,通过理论证明和大量充分的实验,对解耦表征学习领域过去的相关假设及研究进行了质疑和挑战,非常有启发性。
论文链接:https://www.aminer.cn/pub/5e72342f93d709897cfbe0e5?f=cs

标题:ETH & MPI | Structure by Architecture: Disentangled Representations without Regularization
简介:本文研究的问题是使用自编码器来实现自监督结构化表征学习。和大多数方法需要去匹配一个任意的、相对非结构化的先验分布来采样,本文提出了一种只依赖于隐变量独立性的采样方式,从而避免了像VAE那样需要在重构质量和生成性能之间做权衡。本文设计了一种新颖的自编码器结构,能够在不需要正则化的情况下学出结构化的表征。本文提出的结构化解码器能够学出有层次结构的隐变量,类似于结构因果模型SCM,从而不带任何正则化就可以整合信息。本文在几个有挑战性的自然图片数据集上,通过实验展示了这些模型是如何学出一套表征来提升下游任务上的表现,包括生成、解耦、外插。
推荐理由:本文通过一些定性的实验来揭示解耦表征学习算法的外插能力。
论文链接:https://www.aminer.cn/pub/616ec3746750f857fac47edf?f=cs

标题:MPI & ETH | On Disentangled Representations Learned from Correlated Data (ICML 2021
简介:解耦关注的重点是识别出数据中隐含的互相独立的变化因素。然而,现实中观测数据背后的因果变量通常不是统计意义上独立的。本文进行了大规模的实验,在内含相关性的数据上尝试了大多比较知名的解耦算法,分析了它们的效果。本文展示并量化表明,数据集中系统性存在的关联性是会被学到的,并且会反映在隐层表征中,这对于解耦学习的下游应用有一些启发,比如公平性。本文还展示了如何消除这些隐含的关联性,通过训练阶段利用一些弱监督的信号,或者事后用少量标签来校正预训练出来的模型。
推荐理由:探究了解耦表征学习与OOD泛化的关系。
论文链接:https://www.aminer.cn/pub/60bdde338585e32c38af5028?f=cs

标题:MPI & ETH | On the Transfer of Disentangled Representations in Realistic Settings (ICLR 2021)
简介:机器学习的一个重要的问题是,学出一套有意义的表征,能够解耦出数据生成过程的内在结构。尽管已经发现解耦表征对于很多任务都有用,包括抽象推理、公平分类,它们的可扩展性和真实应用仍值得怀疑。本文引入了一个新的高分辨率的数据集,有100万张模拟生成的图片和1800多张带标记的真实图片。和此前的工作相比,这个新数据集呈现了关联性和复杂的内在结构,使得能够评估在未见过的模拟和真实情况下的迁移,编码器可能是分布内的也可能是分布外的。本文提出了新的架构使得解耦表征学习可以扩展到真实的高分辨率的图片上,并在这一新数据集上做了大规模的解耦表征学习的实验。本文发现,解耦的确是实现分布外(OOD)任务的一种不错的方式
推荐理由:扩展了解耦表征学习的规模,且探究了与OOD任务的关系。
论文链接:https://www.aminer.cn/pub/5f994d7091e011a3fbe2fcfa?f=cs

研究动态

Schölkopf和Bengio联合发表因果表征学习综述
今年上半年,Schölkopf和Bengio联合发表了一篇因果表征学习的综述:Towards Causal Representation Learning。本文后来已经被Proceedings of IEEE接收。
简介:机器学习和因果图模型这两个领域是各自单独产生、发展壮大的。然而,现在两个领域有交汇之处,越来越多的人想知道对于如何借鉴对方的领域来使自己的领域受益。在这篇论文中,我们回顾了因果推断的一些重要概念,将它们与机器学习中关键的开放问题关联起来,包括迁移和泛化,继而分析因果对于现在的机器学习研究能起到怎样的帮助作用。反之亦然:我们注意到,因果领域的工作通常事先假定因果变量是已知的。而对于人工智能和因果,一个重要的问题就是,因果表征的学习,也就是从低阶的观测数据中发现高阶的因果变量。最后,我们描绘了因果对于机器学习的一些启示,并且提出了在两个领域交汇处的一些重要的研究方向。
推荐理由:Schölkopf和Bengio合作的一篇综述,对于因果表征学习、因果和机器学习的关系与未来发展做出了展望。
论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=9363924

  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值