论文分享CausalVAE: Disentangled Representation Learning via Neural Structural Causal Models

【AI Drive】CVPR 2021 | CausalVAE:引入因果结构的解耦表征学习_哔哩哔哩_bilibili

目标1  学习到的表征 是具有唯一性的 ,是可以被识别的
根据真实情况设置,代表真实的物理情况,引入结构因果模型,为了表征可识别 引入监督信号
2 在因果表征中实现 do operation 
什么是 do operation   对隐表征能进行干预的时候,因果效应可以传递到子节点
通过干预可以让模型生成一些反事实的图片
3 在现实场景中 因果图 不一定是直接given的  让 模型自动的发现场景中的因果关系

深入浅出搞懂VAE-CSDN博客

摘要:

学习解纠缠的目的是寻找由观测数据的多个解释因素生成因素组成的低维表示。变分自编码器(VAE)的框架通常用于从观测中分离独立因素。然而,在实际场景中,具有语义的因素并不一定是独立的。相反,可能存在一种潜在的因果结构,使这些因素相互依赖。因此,我们提出了一个新的基于VAE的框架CausalVAE,其中包括一个因果层,将独立的外生因素转换为因果内生因素,对应于数据中因果相关的概念。我们进一步分析了模型的可辨识性,表明从观测中学习的模型在一定程度上恢复了真实模型。在各种数据集上进行了实验,包括合成和真实单词基准CelebA。结果表明,使用CausalVAE学习到的因果表示具有语义可解释性,其因果关系作为一个有向无环图(DAG)被很好地识别。此外,我们证明了所提出的CausalVAE模型能够通过对因果因素的“do-operation”生成反事实数据。

1引言

解纠缠表示学习在计算机视觉、语音和自然语言处理等各种应用中都具有重要意义,推荐系统Hsu等人[2017]、Ma等人[2019]、Hsieh等人[2018]。原因是它可以通过学习数据的潜在解纠缠表示来帮助提高模型的性能,即提高对对抗性攻击的泛化能力、鲁棒性和可解释性。解开表示学习最常见的框架之一是变分自动编码器 (VAE),这是一种经过训练以解开潜在解释因素的深度生成模型。通过 VAE 的解纠缠可以通过潜在因素后验与标准多元高斯先验之间的 Kullback-Leibler (KL) 散度的正则化项来实现该正则化项强制学习到的潜在因素尽可能独立。如果现实世界中的观察是由可数的独立因子生成的,则有望恢复潜在变量。为了进一步增强独立性,VAE 的各种扩展考虑最小化潜在因素之间的互信息。例如,Higgins 等人。 [2017] 和 Burges 等人。 [2018] 增加了 KL 散度项的权重来强制独立性。Kim和Mnih[2018],Chen等人[2018]通过减少因子之间的总相关性进一步鼓励独立性。大多数现有的解纠缠表示学习工作都有一个共同的假设,即现实世界的观察是由可数的独立因子生成的。尽管如此,我们认为在在许多现实世界的应用中,潜在因素与感兴趣的语义是因果相关的,因此我们需要一个支持因果解缠的新框架。考虑图1中摆锤的一个玩具例子。光源的位置和钟摆的角度是影子的位置和长度的原因。通过因果解纠缠表征学习,我们的目标是学习与上述四个概念对应的表征。显然,这些概念并不是独立的,现有的方法可能无法提取这些因素。此外,因果解纠缠使我们能够操纵因果系统来生成反事实数据。例如,我们可以操纵阴影的潜码,即使有钟摆和光线,也可以创造出没有阴影的新图像。这与因果关系中的“do-operation”Pearl[2009]相对应,即系统在某些变量受外力控制的条件下运行。支持“do-operation”的深度生成模型具有巨大的价值,因为它允许我们在做决策时问“what-if”问题

在本文中,我们通过引入一个新的结构化因果模型层,提出了一个基于因果关系模型的因果解纠缠表示学习框架,该框架允许我们通过因果DAG恢复具有语义和结构化的潜在因素

输入信号经过一个编码器获得独立的外生因子,然后经过一个因果层生成因果表示,该因果表示被解码器用来重建原始输入。我们称整个过程为因果解纠缠表征学习。与可行性值得怀疑的无监督解纠缠表示学习(Locatello et al.[2018])不同,需要额外的信息作为弱监督信号来实现因果表示学习。通过“弱监督”,我们强调在我们的工作中,潜在因素的因果结构是自动学习的,而不是像Kocaoglu等人[2017]那样作为先验给出。为了训练我们的模型,我们提出了一个新的损失函数,其中包括VAE证据下界损失和对学习到的因果图施加的非周期性约束,以保证其“DAGness”。此外,我们还对所提模型的可辨识性进行了分析,结果表明,解纠缠模型的学习参数在一定程度上恢复了真实模型的参数。我们的论文有三方面的贡献。(1)提出了一个支持因果解缠和“do-operation”的新框架CausalVAE;(2)给出了模型可识别性的理论依据;(3)我们对合成和真实世界的人脸图像进行了综合实验,证明了学习到的因素具有因果语义,并且可以被干预以生成不出现在训练数据中的反事实图像。

2 Related Works

在本节中,我们回顾了最先进的解纠缠表征学习方法,包括结合因果关系和解纠缠表征学习的一些最新进展。我们还提出了从纯粹观察中学习因果结构的初步设想,这是我们提出的因果vae框架的关键组成部分。

解纠缠表征学习:传统的解纠缠表征学习方法通过编码器-解码器框架学习相互独立的潜在因素。在这个过程中,使用标准正态分布作为latent code的先验。然后使用变分后验q(z|x)来近似未知的真后验p(z|x)。通过在原始损失函数中添加新的独立正则化项,进一步扩展了该框架,从而产生了各种算法。β-VAE Higgins等[2017]提出了一种调整KL项权重的自适应框架,以平衡解纠缠因素的独立性和重构性能。而VAE Chen等人[2018]提出了一个新的框架,该框架仅关注因素的独立性。另一方面,Lee等[2016]利用阶梯神经网络的结构来训练结构化的VAE进行分层解纠缠。然而,上述无监督解纠缠表示学习算法在某些因素之间存在复杂因果关系的情况下表现不佳。此外,它们由于缺乏归纳偏置而无法保证模型的可识别性,VAE 的可识别性问题定义如下:如果从数据中学习的参数 ̃θ 导致边际分布等于由 θ 参数化的真实分布,即 p ̃θ (x) = pθ (x),则联合分布也匹配,即 p ̃θ (x, z) = pθ (x, z)。因此,先验 p(z)(标准多元高斯分布)的旋转不变性将导致 p(z) 的无法识别。Khemakhem 等人。 [2019] 证明存在无限数量的不同模型需要相同的联合分布,这意味着底层生成模型无法通过无监督学习识别。相反,通过利用几个标签,我们能够恢复真实的模型Mathieu等人[2018],Locatello等人[2018]。Kulkarni等人[2015]和Locatello等人[2019]使用额外的标签来减少模型的歧义。Khemakhem 等人。 [2019] 通过利用非线性独立分量分析(非线性 ICA)Brakel 和 Bengio [2017] 的理论,给出了具有额外输入的 VAE 的可识别性。——[无监督的生成方式并不能保证生成的结果是具有可识别性的。(学习到的表征可以对应到物理概念中去)缺少归纳偏置】

因果发现与因果解纠缠表示学习

我们将因果表示称为由因果图构建的表示。在过去的几十年里,从纯观测中发现因果图引起了人们的广泛关注。[2009],Zhang和Hyvarinen[2012],Shimizu等人[2006]。Pearl [2009] 引入了基于概率图形模型 (PGMs) 的语言来描述变量之间的因果关系。Shimizu等人[2006]提出了一种名为LiNGAM的有效方法来学习因果图,并在线性和非高斯假设下证明了模型可识别性。Zheng等人[2018]提出了因果结构学习具有完全可微DAG约束的NOTEARs,这将非常复杂的组合优化问题简化为连续优化问题。朱等人。 [2020] 提出了一种基于灵活高效的强化学习 (RL) 的方法来搜索具有最高分数的最佳图的 DAG 空间。最近,社区引起了结合因果关系和解开表示的兴趣。Suter等人[2018]使用因果关系来解释解纠缠的潜在表示。Kocaoglu等人[2017]提出了一种名为CausalGAN的方法,该方法支持图像上的“操作”,但它要求因果图作为先验给出。Besserve等人[2018]不是假设独立的潜在因素,而是允许相关的潜在因素。然而,在他们的工作中,依赖性是由一些潜在的混杂因素引起的,而不是本文研究的潜在因素之间的因果图。Schölkopf[2019]强调了因果解纠缠表示学习的重要性和必要性,但它仍然是概念性的。据我们所知,我们的工作是第一个成功实现因果解纠缠思想的工作

3变分自动编码器中的因果解纠缠

我们从因果表示的定义开始,然后提出了一个新的框架,通过利用额外的输入(例如概念的标签)来实现因果解纠缠。首先,我们在图 2 中概述了我们提出的 CausalVAE 模型结构。因果层本质上描述了结构因果模型 (SCM) Shimizu 等人。 [2006],被引入到传统的 VAE 网络中。因果层将独立的外生因素转换为与感兴趣的因果相关概念相对应的因果内生因素。然后使用掩码机制 Ng 等人。 [2019a] 将父母变量的影响传播到他们的孩子,模仿分配SCM的操作。这样的因果层是支持干预或“做操作”对系统的关键。

3.1将独立外生因素转化为因果表征

我们的模型在基于 VAE 的解耦框架内。除了编码器和解码器结构之外,我们还引入了结构因果模型 (SCM) 层来学习因果表示。为了形式化因果表示,我们考虑了数据中感兴趣的 n 个概念。观察中的概念由具有邻接矩阵 A 的有向无环图 (DAG) 因果结构化。虽然首选一般的非线性SCM,但为了简单起见,在这项工作中,因果层精确地实现了一个线性SCM,如式1所示(如图2 1©所示),

其中 A 是该层要学习的参数。是独立的高斯外生因子,z ∈ Rn 是 DAG 生成的 n 个概念的结构化因果表示,因此 A 可以排列成一个严格的上三角矩阵。由于Locatello等人[2018]中讨论的可识别性问题,模型的无监督学习可能是不可行的。为了解决这个问题,类似于 iVAE Khemakhem 等人。 [2019],我们采用与真实因果概念相关的附加信息 u 作为监督信号。在我们的工作中,我们使用概念的标签。附加信息 u 以两种方式使用。首先,我们提出了一个条件先验 p(z|u) 来正则化 z 的学习后验。这保证了学习模型属于可识别的家族。其次,我们还利用 u 来学习因果结构 A。除了学习因果表示之外,我们进一步使模型能够支持对因果系统的干预,以生成训练数据中不存在的反事实数据。

3.2结构因果模型层

一旦获得因果表示 z,它就会通过 Mask 层 Ng 等人。 [2019a] 来重建自身。请注意,此步骤类似于 SCM,它描述了儿童是如何由其相应的父母变量生成的。我们将展示为什么需要这样的层来实现干预。设zi是向量z中的第i个变量。与因果图相关的邻接矩阵是 A = [A1|.|An] 其中 Ai ∈ Rn 是权重向量,使得 Aji 将因果强度从 zj 编码到 zi。我们有一组温和的非线性和可逆函数 [g1, g2,., gn] 将父变量映射到子变量。

其中◦是逐元素乘法,ηi是gi(·)的参数(如图2 3©所示)。请注意,根据方程式。 1,我们可以简单地写 zi = AT i z + ↦i。然而,我们发现添加温和的非线性函数gi会导致更稳定的性能。为了证明这种掩蔽是如何工作的,考虑一个变量 zi 和 Ai ◦ z 等于一个向量,该向量仅包含其父信息,因为它掩盖了所有 zi 的非父变量。通过最小化重构误差,训练温和非线性函数gi的邻接矩阵a和参数ηi。该层使干预或“做操作”成为可能。因果关系中的干预 Pearl [2009] 是指通过外力修改系统的某些部分,并且对此类操作的结果感兴趣。为了干预 zi,我们在等式的 RHS 上设置 zi。 2(对应于图 2 中第一层 z 的第 i 个节点)到固定值,然后将其效果传递给其所有子节点以及自身在等式的 LHS 上。 2(对应于第二层 z 的某些节点)。请注意,干预原因会改变效果,而干预效果则不会改变原因,因为信息只能流入我们模型中的前一层的下一层,这与因果效应的定义一致。

3.3因果vae的概率推广模型

我们给出了所提出的生成模型的概率公式(见图22©)。用x∈Rd表示观察到的变量,用u∈Rn表示附加信息。UI是数据感兴趣的第i个概念的标签。设∈Rn为潜在外生自变量,z∈Rn为潜在内生变量,具有语义,其中z = AT z + = (I−AT)−1。为简单起见,我们记作C = (I−AT)−1

4 Learning Strategy

在本节中,我们将讨论如何训练CausalVAE模型,以便同时学习因果表示和因果图。

7 Conclusion

在本文中,我们研究了学习数据中因果相关概念的解纠缠表示的重要任务,并提出了一个名为CausalVAE的新框架,该框架包括一个SCM 8层来建模数据的因果生成机制。在附加监督信号的情况下,证明了该模型是完全可识别的。合成数据和真实数据的实验结果表明,CausalVAE成功地学习了因果相关概念的表示,并允许干预根据我们对因果系统的理解产生预期的反事实输出。据我们所知,我们的工作是第一个成功实现因果解纠缠的工作,并有望为解纠缠表示学习领域带来新的见解

VAE 的损失函数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值