Generative Adversarial Nets原文翻译

本人在不改变原意的情况下对《Generative Adversarial Nets. MIT Press, 2014》这篇经典的文章进行了翻译,由于个人水平有限,难免有疏漏或者错误的地方,若您发现文中有翻译不当之处,请私信或者留言。工作虽小,毕竟花费了作者不少精力,所以您若转载请注明出处!

Generative Adversarial Nets(译文)

Abstract

  我们提出了一个新的框架,主要是通过一个对抗过程来估计生成过程。我们同时训练2个模型:一个生成模型G用于捕捉数据分布,一个判别模型D用于估计训练数据的概率。对于生成器G而言,其训练过程就是得到判别器D出错的最大化概率。该框架类似于一个最大最小的博弈游戏。在任意空间中,函数G、D存在唯一的解。在生成器G和判别器D被定义为一个多层的感知器的情况下,整个系统可以利用反向传播进行训练。在训练或生成样本期间,不需要任何马尔可夫链或展开的近似推理网络。通过对生成的样本进行定性和定量评估,实验证明了该框架的潜力。

1、Introduction

  深度学习的前景是发现丰富的层次模型,这些模型表示人工智能应用中遇到的各种数据的概率分布,例如自然图像、包含语音的音频波形以及自然语言语料库中的符号。截止到目前,深度学习最显著的成功主要是判别模型,该模型将那些高维、丰富的感官输入映射到分类标签。这些显著的成功主要是基于反向传播和dropout算法,使用分段线性单元,具有特别好的梯度。深度生成模型的影响较小,这是因为很难对最大似然估计和相关策略中出现的许多难以处理的概率计算进行近似,也因为很难在生成的语义信息中利用分段线性单元的优势。我们提出了一种新的生成模型估计方法,从而避免了这些困难。

  在所提出的对抗性网络框架中,生成模型与对手相比较:一种判别模型,用于学习确定样本是来自模型分布还是来自数据分布。生成模型可以被认为类似于一组伪造者,他们试图制造假币并在不被发现的情况下使用,而鉴别模型类似于警察,他们试图检测假币。这个游戏中的竞争促使两个团队改进他们的方法,直到假冒品与真品无法区分为止。

  该框架可以为多种模型和优化算法生成特定的训练算法。在本文中,我们探讨了生成模型通过多层感知器传递随机噪声生成样本的特殊情况,而判别模型也是多层感知器。我们把这种特殊情况称为对抗网。在这种情况下,我们可以仅使用非常成功的反向传播和退出算法来训练这两个模型,并仅使用正向传播从生成模型中采样。不需要近似推理或马尔可夫链。

2、Related work

  直到最近,关于深层生成模型的大多数工作都集中在提供概率分布函数参数说明的模型上。然后可以通过最大化对数似然来训练模型。在这个模型家族中,也许最成功的是深层玻尔兹曼机器。此类模型通常具有难以处理的似然函数,因此需要对似然梯度进行多次近似。这些困难推动了“生成机器”的发展——这些模型没有明确表示可能性,但能够从所需的分布中生成样本。生成型随机网络是生成型机器的一个例子,它可以通过精确的反向传播而不是Boltzmann机所需的大量近似值进行训练。这项工作通过消除生成随机网络中使用的马尔可夫链,扩展了生成机器的概念。我们的工作通过生成过程反向传播导数,生成过程参考以下观测函数:
lim ⁡ σ → 0 ∇ x E ε ∼ N ( 0 , σ 2 I ) f ( x + ϵ ) = ∇ x f ( x ) \lim\limits_{\sigma \to 0}\nabla_x\mathbb{E}_{\varepsilon \sim N(0,\sigma^2I)}f(x+\epsilon)=\nabla_xf(x) σ0limxEεN(0,σ2I)f(x+ϵ)=xf(x)
  在我们开展这项工作的时候,我们不知道Kingma和Wellingand Rezen de等人已经开发了更一般的随机反向传播规则,允许通过具有有限方差的高斯分布反向传播,并反向传播到协方差参数和平均值。这些反向传播规则可以让我们了解生成器的条件方差,我们在这项工作中将其视为超参数。Kingma和Welling以及Rezende等人使用随机反向传播来训练变分自动编码器(VAE)。与生成对抗网络一样,变分自动编码器将可微生成网络与第二个神经网络配对。与生成性对抗网络不同,VAE中的第二个网络是执行近似推理的识别模型。GAN需要通过可见单元进行微分,因此无法对离散数据进行建模,而VAE需要通过隐藏单元进行微分,因此没有离散的潜在变量。也存在其他类似的VAE方法,但是这与我们的方法关系不大。以前的工作也采取了使用判别准则来训练生成模型的方法。这些方法使用的标准对于深度生成模型来说是难以解决的。这些方法甚至很难对深度模型进行近似,因为它们涉及概率比,而概率比无法使用概率下限的变分近似进行近似。噪声对比估计(NCE)涉及通过学习权重来训练生成模型,使该模型有助于区分固定噪声分布中的数据。使用先前训练的模型作为噪声分布,可以训练一系列质量不断提高的模型。这可以看作是一种非正式的竞争机制,在精神上类似于对抗性网络游戏中使用的正式竞争。NCE的关键限制在于其“鉴别器”由噪声分布和模型分布的概率密度之比定义,因此要求能够通过这两种密度进行评估和反向传播。
  以前的一些工作使用了两个神经网络竞争的一般概念。最相关的工作是可预测性最小化。在可预测性最小化中,将神经网络中的每个隐藏单元训练为不同于第二个网络的输出,第二个网络根据所有其他隐藏单元的值预测该隐藏单元的值。这项工作在三个重要方面不同于可预测性最小化:
1) 在这项工作中,网络之间的竞争是唯一的训练标准,它本身就足以训练网络。可预测性最小化只是一个正则化器,它激励神经网络的隐藏单元在完成其他任务时保持统计独立;这不是主要的训练标准。
2) 竞争的性质是不同的。在可预测性最小化中,比较两个网络的输出,一个网络试图使输出相似,另一个网络试图使输出不同。所讨论的输出是单个标量。在GANs中,一个网络产生一个丰富的高维向量,用作另一个网络的输入。
3) 学习过程的规范是不同的。可预测性最小化被描述为一个目标函数最小化的优化问题,并且学习接近目标函数的最小值。GAN基于一个极小极大博弈而不是一个优化问题,并且具有一个价值函数,一个寻求最大化,另一个寻求最小化。

  生成性对抗网络有时与“对抗性示例”的相关概念相混淆[28]。对抗性示例是通过直接对分类网络的输入使用基于梯度的优化来找到的示例,以便找到与错误分类的数据相似的示例。这与目前的工作不同,因为对抗性示例不是训练生成模型的机制。相反,对抗性示例主要是一种分析工具,用于显示神经网络以有趣的方式运行,通常自信地以高置信度分类两幅不同的图像,即使人类观察者察觉不到它们之间的差异。这些对抗性例子的存在确实表明,生成性对抗性网络训练可能效率低下,因为它们表明,现代歧视性网络可以自信地识别一个类别,而不模仿该类别的任何人类可感知属性。

3、Adversarial Nets

  当模型都是多层感知机时,对抗性模型框架最容易被直接应用。为了学习生成器在数据 x x x上的分布 p g p_g pg,我们定义了输入噪声变量的先验知识 p z ( z ) p_z(z) pz(z),然后定义 G ( z ; θ ) G(z;\theta) G(z;θ)表示噪声变量到数据空间的映射,这里 G G G是由具有参数 θ g \theta_g θg的多层感知器表示的可微函数。我们也定义了第二个多层感知器 D ( x ; θ d ) D(x;\theta_d) D(x;θd),该感知器的输出是一个单一的标量。 D ( x ) D(x) D(x)表示的是来自数据 x x x的概率。我们对 D D D进行训练,以期最大化将正确标签训练实例和来自于 G G G样本的概率。我们同时训练 G G G,最小化函数 l o g ( 1 − D ( G ( x ) ) ) log(1-D(G(x))) log(1D(G(x)))。换句话说, D D D G G G使用值函数 V ( G , D ) V(G,D) V(G,D)去玩以下的极大极小游戏(或者翻译为博弈游戏)。
在这里插入图片描述   在下一节中,我们将介绍对抗网络的理论分析,基本上表明,当G和D具有足够容量时,即在非参数限制下,训练标准允许恢复数据生成分布。请参见图1,了解该方法不太正式、更具教学意义的解释。在实际使用中,我们必须使用迭代的数值方法来完成这个游戏。在训练的内环中优化D以完成训练在计算上是禁止的,并且在有限的数据集上会导致过度拟合。相反,我们在优化D的k个步骤和优化G的一个步骤之间交替进行。这导致只要G变化足够慢,D就会保持在接近其最优解的位置。算法1正式介绍了该过程。在应用中,上述方程无法为 G G G提供足够的梯度,以便于更好的学习。在学习的早期,当 G G G数值很低时, D D D可以按照很高的置信度来拒绝样本,因为它们与训练数据明显不同。在这种情况下, l o g ( 1 − D ( G ( z ) ) ) log(1-D(G(z))) log(1D(G(z)))是饱和的。我们可以训练判别器 G G G去最大化 l o g D ( G ( z ) ) logD(G(z)) logD(G(z))

4、Theoretical Results

  当 z ∼ p z z\sim p_z zpz时,生成器 G G G隐式的将概率分布 p g p_g pg定义为样本 G ( z ) G(z) G(z)的分布。因此,如果给定足够的容量和训练时间,我们希望算法1收敛到一个良好的估计值 p d a t a p_{data} pdata。本节的结果是在非参数设置下完成的,例如,我们通过研究概率密度函数空间中的收敛性来表示具有无限容量的模型。在第4.1节,我们将说明对于 p g = p d a t a p_g=p_{data} pg=pdata最大最小值博弈过程中存在一个全局最优值。在第4.2节,我们将会证明利用算法1对方程1进行优化,可以获得所需的结果。

在这里插入图片描述
图1:生成式对抗网络通过同时更新判别分布(D,蓝色,虚线)进行训练,以便于区分来自数据生成分布(黑色,点线) p x p_x px,和生成式分布 p g ( G ) p_g(G) pg(G)(绿色,实线)。最下面的水平线是 z z z采样的区域,在这种情况下是均匀的。而上面的水平线是 x x x区域的一部分。向上的箭头展示的是映射 x = G ( z ) x=G(z) x=G(z)如何将非均匀分布 p g p_g pg施加到变换样本上。 G G G在高密度区域收缩,在 p g p_g pg的低密度区域扩张。(a)考虑一对近似收敛的对抗, p g p_g pg类似于 p d a t a p_{data} pdata D D D是一个部分精确的分类器。(b)在算法的内环中, D D D被用于训练区分样本和数据,趋同于 D ∗ ( x ) = p d a t a ( x ) p d a t a ( x ) + p g ( x ) D^*(x)=\frac{p_{data}(x)}{p_{data}(x)+p_g(x)} D(x)=pdata(x)+pg(x)pdata(x)。(c)在对 G G G进行更新后, D D D的梯度引导 G ( z ) G(z) Gz流向更有可能被分类为数据的区域。(d) 经过几个步骤的训练后,如果 G G G D D D有足够的能力,此时他们将达到一个点,在该点处两者均不能提高,因为 p g = p d a t a p_g=p_{data} pg=pdata。此时判别器不能够去区分这两个分布,因为 D ( x ) = 1 / 2 D(x)=1/2 D(x)=1/2

在这里插入图片描述

4.1 p_g=p_{data}的全局优化

我们首先考虑对于任意给定的生成器 G G G去优化判别器 D D D。固定生成器 G G G,最优判别器为: D G ∗ ( x ) = p d a t a ( x ) p d a t a ( x ) + p + g ( x ) D_G^*(x)=\frac{p_{data}(x)}{p_{data}(x)+p+g(x)} DG(x)=pdata(x)+p+g(x)pdata(x)
对于判别器 D D D的训练标准为,给定任意的生成器 G G G,使得 V ( G , D ) V(G,D) V(G,D)最大化
在这里插入图片描述
对于任意的 ( a , b ) ϵ R 2 0 , 0 (a,b) \epsilon \frac{R^2}{{0,0}} (a,b)ϵ0,0R2,函数 y → a l o g ( y ) + b l o g ( 1 − y ) y \rightarrow alog(y)+blog(1-y) yalog(y)+blog(1y) a a + b ϵ [ 0 , 1 ] \frac{a}{a+b} \epsilon[0,1] a+baϵ[0,1]时达到最大值。且判别器不需要在外部被定义。
注意,对于 D D D的训练目标可以被解释为最大化估计条件概率 P ( Y = y ∣ x ) P(Y=y|x) P(Y=yx)的似然。这里 Y Y Y表示 x x x是来自于 p d a t a ( y = 1 ) p_{data}(y=1) pdata(y=1)还是 p g ( y = 0 ) p_g(y=0) pg(y=0)。方程1的最大最小方程可以被重新建模为:

在这里插入图片描述
当且仅当 p g = p d a t a p_g=p_{data} pg=pdata时,才达到虚拟训练准则 C ( G ) C(G) C(G)的全局最小值。在该点处, C ( G ) = − l o g 4 C(G)=-log4 C(G)=log4
对于 p g = p d a t a , D G ∗ ( x ) = 1 / 2 p_g=p_{data},D_G^*(x)=1/2 pg=pdata,DG(x)=1/2。因此,在方程4中当 D G ∗ ( x ) = 1 / 2 D_G^*(x)=1/2 DG(x)=1/2时,我们发现 C ( G ) = l o g 1 / 2 + l o g 1 / 2 = − l o g 4 C(G)=log1/2+log1/2=-log4 C(G)=log1/2+log1/2=log4。仅当 p g = p d a t a p_g=p_{data} pg=pdata时, C ( G ) C(G) C(G)可能存在最佳值。有:
在这里插入图片描述
通过从 C ( G ) = V ( D G ∗ , G ) C(G)=V(D_G^*,G) C(G)=V(DG,G)减去这个表达式,我们可以得到:
在这里插入图片描述
这里,KL表示的是KL散度或者相对熵。我们在前面的表达式中认识到模型分布和数据生成过程之间的Jensen–Shannon散度:
在这里插入图片描述
由于两个分布之间的Jensen–Shannon散度总是非负的,如果它们相等,则为零。们已经证明了 C ∗ = − l o g ( 4 ) C^*=-log(4) C=log(4) C ( G ) C(G) C(G)的全局最小值,唯一的解决方案是 p g = p d a t a p_g=p_{data} pg=pdata,即完美复制数据分布的生成模型。

4.2 算法1的收敛性

  如果 G G G D D D有足够的容量,在算法1的每一步,鉴别器在给定 G G G的情况下,允许达到其最佳值,并且更新 p g p_g pg以改进准则。
在这里插入图片描述
然后 p g p_g pg收敛到 p d a t a p_{data} pdata
  考虑 V ( G , D ) = U ( p g , D ) V(G,D)=U(p_g,D) V(G,D)=U(pg,D)作为 p g p_g pg的函数。注意,在 p g p_g pg中,函数 U ( p g , D ) U(p_g,D) U(pg,D)是凸的。凸函数上确界的子导数包括函数在达到最大点处的导数。换句话说,如果f(x)=supα∈对于每个α,A fα(x)和fα(x)在x中是凸的,那么∂fβ(x)∈ ∂f如果β=argsupα∈A fα(x)。这相当于在给定相应的G的情况下,在最佳D处计算pg的梯度下降更新。supD U(pg,D)在pg中是凸的,具有唯一的全局最优解,如Thm 1中所证明的,因此在pg更新足够小的情况下,pg收敛到px,从而得出证明。实际上,对抗网络通过函数G(z;θg),我们优化θg而不是pg本身,因此证明不适用。然而,多层感知器在实践中的优异性能表明,尽管缺乏理论保证,但多层感知器是一种合理的使用模型。

5、Experiments

我们在一系列数据集上训练了对抗网络,包括MNIST、多伦多人脸数据库(TFD)和CIFAR-10。生成式网络混合使用线性激活函数和sigmoid激活函数,而判别器网络使用最大输出激活。dropout被用于训练鉴别器网络。虽然我们的理论框架允许在生成器的中间层使用dropout和其他噪声,但我们仅将噪声用作生成器网络最底层的输入。

我们通过将高斯Parzen窗口拟合到G生成的样本,并报告该分布下的对数似然,来估计pg下测试集数据的概率。通过验证集上的交叉验证,获得高斯函数的σ参数。该程序在Breuleux等人中介绍,并用于各种生成模型,对于这些模型,精确的可能性是不可控制的。结果如表1所示。这种估计可能性的方法具有较高的方差,在高维空间中表现不佳,但它是我们所知的最佳方法。生成性模型的进步可以取样但不能估计可能性,这直接推动了对如何评估此类模型的进一步研究。在图2和图3中,我们展示了训练后从发电机网络中提取的样本。虽然我们没有声称这些样本优于现有方法生成的样本,但我们认为这些样本至少与文献中更好的生成模型具有竞争力,并突出了对抗性框架的潜力。

6、Advantages and Disadvantages

与以前的建模框架相比,这个新框架有其优点和缺点。缺点主要是pg(x)没有明确的表示,并且在训练期间D必须与G很好地同步(特别是,在不更新D的情况下G不能训练太多),为了避免“Helvetica场景”,即G将太多的z值压缩为相同的x值,以具有足够的多样性来模拟pdata),就像Boltzmann机器的负链必须在学习步骤之间保持最新一样。其优点是不需要马尔可夫链,仅使用backprop获得梯度,在学习过程中不需要推理,并且可以将多种函数合并到模型中。表2总结了生成性对抗网络与其他生成性建模方法的比较。

上述优点主要是计算性的。对抗性模型也可能从发生器网络中获得一些统计优势,该网络不直接使用数据样本进行更新,而仅使用流经鉴别器的梯度进行更新。这意味着输入的组件不会直接复制到生成器的参数中。对抗性网络的另一个优点是,它们可以表示非常尖锐甚至退化的分布,而基于马尔可夫链的方法要求分布有点模糊,以便链能够在模式之间混合。

7、Conclusions and Future Work

该框架可以直接进行多个方向的拓展:在这里插入图片描述

  • 5
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值