Implicit Generation and Generalization with Energy-Based Models

Implicit Generation and Generalization with Energy-Based Models

基于能量的模型(ebm)由于其在似然建模中的通用性和简单性而具有吸引力,但传统上很难训练。我们通过现代架构上的MCMC框架提出了扩展EBM训练的技术。我们发现,EBMs上的MCMC在CIFAR10上生成的真实图像样本比最新的似然模型更为一致,并且与GANs相当,而没有出现模式崩溃,并且在时间序列数据上明显优于相同的前馈模型。我们进一步表明,EBMs能够实现比其他最先进的生成模型更好的分布外泛化(比如给CIFAR10图像分配比SVHN图像更高的似然),并且能够在测试时进行加法组合,以生成多个different latents的组合。

Introduction

深度学习的两个基本问题是数据效率和分布外泛化。生成性模型捕捉世界知识,实现更快的学习。同时,生成性建模有助于防止分布外情况下的灾难性失败。

生成式建模引起了很多研究者的兴趣。很多方法都是直接最大化似然。对相关的高维数据分布进行建模是困难的。自动回归模型Auto-regressive[Van Oord等人,2016,Graves,2013]通过将底层分布完全因子化(factorizing the underlying distribution)来解决这个问题,但这种方法会导致复合误差和底层结构信息的损失。其他方法,如变分自编码器[Kingma andWelling,2014]或基于流的模型[Dinh等,2014,Kingma和Dhariwal,2018]依靠因子化的先验分布(factorized prior distribution)来简化似然估计。流模型需要可逆的雅可比变换,这会限制模型的容量,并且难以拟合不连续的数据。这种近似方法使得似然模型无法在不同领域生成高质量的图像。相比之下,基于生成性对抗网络的方法[Goodfello等人,2014]对潜在空间没有限制,生成了高质量的图像,但没有覆盖整个数据分布。

基于能量的模型(Energy based models,EBMs)是没有潜在约束的灵活似然模型[LeCun等,2006]。EBMs在过去受到关注[Hinton等,2012,Dayan等,1995],但由于昂贵的负采样阶段( expensive negative sampling phase),没有得到广泛的应用。我们提出了将EBMs扩展到现代架构的方法。我们发现,这些EBM能够生成明显优于其他似然模型的样本,并且在图像质量上与CIFAR10上的GANs(inception score)具有竞争力,在时间序列建模上优于相应的前馈网络。

通过几次图像拼接实验和似然估计,我们发现样本质量并不是以模式崩溃为代价的。此外,我们还证明了EBMs具有很好的泛化能力,在非分布泛化方面明显优于其他最先进的似然模型。

2 Related Work

基于能源的模型在过去受到了大量关注[LeCun et al.,2006,Hinton et al.,2012]。以前的方法也依赖于MCMC训练来对配分函数进行采样,但主要是依靠旧架构上的Gibb采样[Nair和Hinton,2010]。相反,我们使用Langevin Dynamics(也用于[Mnih and Hinton])或MPPI([Williams et al.,2017])对现代架构上的负样本进行更有效的采样。

我们展示了基于能量的训练与GANS的联系,这在[Finn等人,2016,Zhao等人,2016,Kim和Bengio,2016]中也有展示。Finn等[2016]展示了训练GAN和能量函数之间的直接联系,使用一个单独的proposal distribution q(x)来估计partition function。Zhao等[2016]、Kim和Bengio[2016]以及许多相关的工作都在单独的q(x)上使用对抗式训练来提供partition function的快速估计。我们的工作与这些模型是分开的,因为我们使用原始函数的MCMC近似来估计配分函数,并使用这个MCMC近似作为我们的生成器。因为我们的“生成器”依赖于我们的原始函数,这允许生成器隐式地适应,同时只训练我们的能量函数(判别器)。这样一来,就不需要训练生成器了,再加上模型本身在所有训练数据点上都有概率的模式,降低了模式崩溃的可能性。我们对EBMs的推导进一步表明,在最优 "生成器 "下最大化似然完全对应于Wassterstein GAN准则[Arjovsky等,2017]。

3 Scaling EBM Training

在本节中,我们制定了我们训练EBMs的方法。我们概述了我们的似然目标和采样分布。然后,我们详细介绍了架构变化和采样技巧,允许更好的整体采样。最后,我们提供了我们的整体损失,并展示了一个connection GAN based training。

3.1 Likelihood Objective

我们的EBMs训练算法的总体算法遵循对比发散算法[Hinton,2002]。给定一个能量函数 E ( x ; θ ) ∈ R E(x;\theta)\in\mathbb R E(x;θ)R ,表示为一个神经网络,我们通过吉布分布将概率分布建模为p(x)。
在这里插入图片描述
其中q(x)是一个proposal distribution,我们选择它作为p(x)的有限步长MCMC近似。评估精确的似然q(y)是很难计算的。我们选择使用两种近似中的一种:要么q(y)s是均匀分布,要么q(y)符合能量分布p(y)。如果我们假设所有的q(y)都相等,我们有一个近似的负对数似然目标为

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值