Generative Adversarial Nets/生成对抗网络
Abstract
我们提出了一个通过对抗过程估计生成模型的新框架,其中我们同时训练两个模型:捕获数据分布的生成模型G,以及估计样本来自训练数据而不是G的概率的判别模型D.G的训练过程是最大化D出错的概率。这个框架对应于一个minimax双人游戏。在任意函数G和D的空间中,存在唯一解,G无限逼近训练数据分布(G能够完全拟合出原始数据分布,D无法完全判别出是原始数据还是生成数据),D处处等于1/2。在G和D由多层感知器定义的情况下,可以用反向传播和梯度下降来训练整个系统。在样本的训练或生成过程中,不需要任何马尔可夫链或展开的近似推理网络。实验通过对生成的样本进行定性和定量评估来展示该框架的潜力。
生成器生成使判别器无法判断真假的假图像。
1 Introduction
深度学习的前景是发现丰富的分层模型[2],这些分层模型表示人工智能应用中遇到的各种数据的概率分布,如自然图像、包含语音的音频波形和自然语言语料库中的符号。到目前为止,深度学习中最引人注目的成功涉及判别模型,通常是那些将高维、丰富的感官输入映射到类别标签的模型[14,20]。这些惊人的成功主要基于反向传播和dropout算法,使用分段线性单元[17,8,9],其具有特别良好的梯度。深度生成模型的影响较小,因为很难近似最大似然估计和相关策略中出现的许多棘手的概率计算,并且很难在生成上下文中利用分段线性单元的好处。我们提出了一种新的生成模型估计程序,避开了这些困难。
判别式模型拟合条件类别概率P(y|x)
生成式模型拟合联合概率分布P(x,y)
以前的生成模型需要拟合原始数据概率分布,产生出拟合原始数据概率分布的新图像,用relu作为激活函数的神经元去解决这种问题是比较难的,GAN中生成器回避了这种问题,不是拟合原始数据概率分布,用对抗学习的范式去生成图像,欺骗辨别器。
GPT: GAN的生成器并不是直接拟合原始数据的概率分布,而是通过对抗训练的方式,使生成的样本能够欺骗判别器、与真实样本相似度高。生成器通过优化自身的生成策略,逐渐提高生成样本的质量和逼真度,与真实数据的分布不一定完全一致。
在所提出的对抗性网络框架中,生成模型与对手竞争:学习确定样本是来自模型生成分布还是真实数据分布的判别模型。生成模型可以被认为类似于一队伪造者,试图制造假币并在不被发现的情况下使用它,而判别模型类似于警察,试图检测假币。这场比赛中的竞争驱使双方改进他们的方法,直到赝品与真品无法区分。
生成器不是拟合原始数据概率分布,而是生成假的图像去欺骗分辨器。通过生成器和分辨器的对抗形成自监督的场景。
该框架可以针对多种模型和优化算法产生特定的训练算法。在本文中,我们探讨了生成模型通过将随机噪声通过多层感知器来生成样本的特殊情况,而判别模型也是多层感知器。我们把这种特殊情况称为对抗性网络。在这种情况下,我们可以仅使用非常成功的反向传播和dropout算法[16]来训练这两个模型,并且仅使用正向传播来从生成模型中采样。不需要近似推理或马尔可夫链。
Introduction 部分主要包括以下内容:
- 引入生成模型的问题:作者指出,传统的生成模型(如变分自编码器和隐马尔可夫模型)面临着一些问题,如在样本生成任务中的困难、近似推断的需求以及难以定义合适的目标函数等。这些问题促使他们提出了生成对抗网络(GAN)。
- GAN 的核心思想:作者介绍了 GAN 的核心思想,即通过引入一个生成器网络和一个判别器网络,允许它们相互博弈,以提高生成的数据质量。生成器试图生成伪造的数据,而判别器试图区分真实数据和伪造数据。
- GAN 的训练过程:在 GAN 的训练中,生成器和判别器相互竞争,通过最小化生成器和判别器的损失函数来不断调整其参数。这种对抗学习的过程被称为 "最小 最大" 博弈。
- GAN 的优势和潜在应用:作者提到 GAN 具有一些显著的优点,包括生成高质量的数据、不需要显式的概率分布假设以及灵活适应各种数据类型。他们强调 GAN 在图像合成、样本生成、图像超分辨率和生成艺术等领域的应用。
- GAN 的目标和动机:作者总结了 GAN 的目标,即生成器和判别器都在学习的过程中不断改进,生成器生成逼真的数据,判别器有效地区分真实和伪造数据。动机是通过这种对抗性学习的方式来提高生成数据的质量。
2 Related work
直到最近,大多数关于深度生成模型的工作都集中在提供概率分布函数参数化规范的模型上。然后可以通过最大化对数似然来训练模型。在这一系列模型中,也许最成功的是深度玻尔兹曼机[25]。这种模型通常具有难以处理的似然函数,因此需要对似然梯度进行多次近似。这些困难推动了“生成机器”的发展——模型不明确表示可能性,但能够从期望的分布中生成样本。生成随机网络[4]是生成机器的一个例子,它可以用精确的反向传播而不是玻尔兹曼机器所需的大量近似来训练。这项工作通过消除生成随机网络中使用的马尔可夫链扩展了生成机器的概念。
对于F的期望求导等价于对于F自己求导。可以用反向传播算法训练gan
在我们开展这项工作时,我们并不知道Kingma和Welling[18]以及Rezende等人。[23]开发了更一般的随机反向传播规则,允许通过具有有限方差的高斯分布反向传播,并反向传播到协方差参数以及平均值。这些反向传播规则可以让人们学习生成器的条件方差,我们在本文中将其视为超参数。金玛和韦林[18]以及雷森德等人。[23]使用随机反向传播来训练变分自动编码器(VAE)。像生成对抗网络一样,变分自动编码器将可微生成网络与第二个神经网络配对。与生成对抗网络不同,VAE中的第二个网络是执行近似推理的识别模型。gan需要通过可见单元进行微分,因此不能对离散数据进行建模,而vae需要通过隐藏单元进行微分,因此不能具有离散的潜在变量。存在其他类似VAElike的方法[12,22],但与我们的方法关系不太密切。
变分自编码器(Variational Autoencoder,VAE)是一种生成模型,结合了自编码器和概率推断的思想。它主要用于学习数据的潜在表示,并且可以用于生成新的、与训练数据相似的样本。
先前的工作也采用了使用判别标准来训练生成模型的方法[29,13]。这些方法使用的标准对于深度生成模型来说是难以处理的。这些方法甚至对于深度模型都很难近似,因为它们涉及的概率比不能用下界概率的变分近似来近似。噪声对比估计(NCE)[13]涉及通过学习权重来训练生成模型,这些权重使模型有助于从固定噪声分布中区分数据。使用先前训练的模型作为噪声分布允许训练一系列质量增加的模型。这可以看作是一种非正式的竞争机制,在精神上类似于对抗性网络游戏中使用的正式竞争。NCE的关键限制是其“鉴别器”由噪声分布和模型分布的概率密度之比定义,因此需要评估和反向传播两种密度的能力。
一些先前的工作使用了让两个神经网络竞争的一般概念。最相关的工作是可预测性最小化[26]。在可预测性最小化中,神经网络中的每个隐藏单元被训练成不同于第二个网络的输出,第二个网络在给定所有其他隐藏单元的值的情况下预测该隐藏单元的值。这项工作在三个重要方面不同于可预测性最小化:1)在这项工作中,网络之间的竞争是唯一的训练标准,它本身就足以训练网络。可预测性最小化只是一个正则化器,它鼓励神经网络的隐藏单元在完成其他任务时保持统计独立;这不是主要的训练标准。2)竞争的性质不同。在可预测性最小化中,比较两个网络的输出,一个网络试图使输出相似,另一个网络试图使输出不同。所讨论的输出是单个标量。在GANs中,一个网络产生一个丰富的高维向量,用作另一个网络的输入,并试图生成一个判别器不知道如何处理的输入。3)学习过程的规范不同。可预测性最小化是描述为优化目标函数最小化的问题,学习接近目标函数的最小值。GANs基于极大极小博弈而不是优化问题,并且具有一个价值函数,一个代理寻求最大化,另一个代理寻求最小化。游戏在一个鞍点结束,这个鞍点是一个玩家策略的最小值,也是另一个玩家策略的最大值。
生成对抗网络有时会与“对抗样本”的相关概念混淆[28]。对抗样本是通过直接在分类网络的输入上使用基于梯度的优化来找到的示例,以便找到与数据相似但分类错误的示例。这与目前的工作不同,因为对抗性的例子不是训练生成模型的机制。相反,对抗性的例子主要是一种分析工具,用于显示神经网络以有趣的方式运行,通常以高置信度自信地对两幅图像进行不同的分类,即使它们之间的差异对于人类观察者来说是察觉不到的。这种对抗性例子的存在确实表明,生成性对抗性网络训练可能是低效的,因为它们表明,有可能使现代辨别网络自信地识别一个类,而不模仿该类的任何人类可感知的属性。
以下是关于 GAN 论文中相关工作的详细总结:
- 深度玻尔兹曼机(Deep Boltzmann Machine,DBM):GAN 的相关工作中,常提到一种被称为深度玻尔兹曼机的无向概率模型。DBM 是一种多层的神经网络模型,可通过无向图表示层与层之间的连接关系。其训练过程可以使用 Markov Chain Monte Carlo(MCMC)方法进行学习。DBM 主要用于生成模型任务,但由于其训练过程复杂且计算开销较大,GAN 提出了更简洁有效的生成模型训练方法。
- 变分自动编码器(Variational Autoencoder,VAE):VAE 是一种生成模型,通过将自动编码器和变分推断结合来进行训练。它的目标是学习输入数据的潜在分布,并通过生成模型从该分布中采样生成新数据。与 GAN 不同,VAE 使用了一种基于最大似然估计的训练方法,具有更稳定和可控的生成过程。VAE 的引入使得生成模型训练更加多样化,但其训练过程中的隐变量表示相对较简单,不如 GAN 的生成效果更真实。
- 可预测性最小化(Predictability Minimization):可预测性最小化是一种生成模型的训练方法,旨在降低生成样本与输入样本之间的可预测性,增加生成样本的多样性。该方法通过最小化预测误差来实现。由于 GAN 使用对抗训练的方式,可以在生成样本的逼真度和多样性之间找到更好的平衡,因此 GAN 在生成任务上具有优势。
- 对抗样本(Adversarial Examples):对抗样本是指对机器学习模型进行有意设计的输入样本,以引发模型产生错误的预测结果。GAN 的训练过程中涉及到生成器和判别器之间的对抗,其中生成器试图生成逼真的样本以欺骗判别器,而判别器则尽力区分真实样本和生成样本。这种对抗训练使得 GAN 具有生成逼真样本的能力,并且对抗样本攻击也为我们揭示了模型脆弱性的一方面。
综上所述,GAN 在相关工作中与深度玻尔兹曼机、变分自动编码器、可预测性最小化和对抗样本等方法相比,具有更好的生成效果和多样性,并且通过对抗训练的方式,在生成任务上取得了显著的进展。同时,每种方法在不同任务和场景中都有其独特的优势和适用性。可以根据具体需求选择合适的方法来解决问题。
3 Adversarial nets
Z:随机噪声,Pz(z):随机噪声Z服从的概率分布(1为均匀分布,1维高斯分布,2维均匀分布,2维高斯分布)
G(z;θg)生成器:输入Z输出假图像 Pg:生成器生成的图像服从的概率分布
X~Pdata真实数据服从的概率分布 D(x;θd):判别器输出为真实数据的概率
当两个模型都是多层感知器时,对抗性建模框架最容易应用。为了学习生成器在数据x上的分布pg,我们定义了输入噪声变量pz(Z)的先验,然后将到数据空间的映射表示为G(z;θg),其中G是由具有参数θg的多层感知器表示的可微函数。我们还定义了第二个多层感知器D(x; θd),它输出单个标量。D(x)表示x来自数据而不是pg的概率。我们训练D以最大化将正确标签分配给来自G的训练示例和样本的概率。我们同时训练G以最小化log(1 − D(G(z)))。换句话说,D和G用值函数V(G,D)玩以下两人极大极小博弈:
整体:给定D,找到使V最小的G,给定G,找到使V最大化的D
判别器输入为真实数据时,输出越大越好,前一项与生成器无关。
后一项:判别器输出假数据时,输出越小越好。
在下一节中,我们提出了对抗网络的理论分析,本质上表明,当G和D被赋予足够的容量时,即在非参数限制下,训练标准允许人们恢复数据生成分布。参见图1,了解对该方法不太正式、更具教育性的解释。在实践中,我们必须使用迭代的数值方法来实现这个游戏。在训练的内部循环中优化D到完成在计算上是禁止的,并且在有限的数据集上将导致过度拟合。相反,我们在优化D的k个步骤和优化G的一个步骤之间交替。这导致D保持在其最优解附近,只要G变化足够慢。算法1正式给出了该过程
non parametric limit:概率分布拟合能力上限由数据量本身决定的而不是由模型的参数(capacity)决定只要数据量足够大,性能可以无限好,比如:KNN、de means 高斯过程(概率机器)都不是自带先验分布的
而先验分布假设的模型,如线性回归,逻辑回归,都不是non parametric limit
图1:通过同时更新判别分布(D,蓝色,虚线)来训练生成对抗网络,使得它区分来自数据生成分布(黑色,虚线)px和生成分布pg(G)(绿色,实线)的样本。较低的水平线是z采样的域,在这种情况下是均匀采样的。上面的水平线是x的定义域的一部分。向上的箭头显示了映射x=G(z)如何将非均匀分布pg施加到变换的样本上。向上的箭头表明了由噪声空间映射到图像空间的生成器的作用。G在pg的高密度区域收缩,在pg的低密度区域膨胀。
(a)考虑一个接近收敛的对立对:pg类似于pdata,D是部分精确的分类器。
(b)在算法的内部循环中,训练D从数据中区分样本,收敛到D∗(x) =pdata (x)pdata(x)+pg(x)
(c)更新G后,D的梯度引导G(z)流向更有可能被归类为数据的区域。
(d)经过几个步骤的训练,如果G和d有足够的容量,他们将达到两者都无法提高的点,因为pg=pdata。鉴别器无法区分这两种分布,即D(x)=½。
在实践中,等式1可能没有为G提供足够的梯度来很好地学习。在学习的早期,当G很差时,D可以拒绝置信度很高的样本,因为它们与训练数据明显不同。在这种情况下,log(1 − D(G(z)))饱和。我们可以训练G最大化log D(G(z)),而不是训练G最小化log D(G(z))。这个目标函数导致G和D的动力学的相同不动点,但是在学习的早期提供了更强的梯度。
训练刚开始时,生成的图像太假,太容易被判别器识破,D(G(Z))接近于零,log(1 − D(G(z)))饱和无梯度。
log(1 − D(G(z)))饱和表明x是来自于pg的概率很小,在x来自于pg的情况下,需要log D(G(z))变大,
4 Theoretical Results
生成器G隐式地将概率分布pg定义为当z~pz时获得的样本G(z)的分布。因此,如果给定足够的容量和训练时间,我们希望算法1收敛到pdata的良好估计器。本节的结果是在非参数设置下完成的,例如,我们通过研究概率密度函数空间中的收敛性来表示具有无限容量的模型。
我们将在第4.1节中展示这个极小极大对策对于pg=pdata有一个全局最优。然后我们将在第4.2节中展示算法1优化等式1,从而获得期望的结果。
4.1 Global Optimality of pg = pdata
我们首先考虑任何给定生成器G的最优鉴别器D。
1号提案。当G固定时,最佳鉴别器D为
证明。给定任意生成器G,鉴别器D的训练准则是使数量V(G,D)最大化
对于任何(a, b) ∈ R2 \ {0, 0},函数y → a log(y) + b log(1 − y) 在aa+b∈[0, 1]中达到最大值
鉴别器不需要在Supp(pdata) ∪ Supp(pg) 之外定义,从而结束证明。
注意,D的训练目标可以解释为最大化估计条件概率P(Y=y|x)的对数似然,其中Y表示x是来自pdata(Y=1)还是来自pg(Y=0)。等式中的极小极大博弈。1现在可以重新表述为:
C(G) =minDx V (G, D)
定理1。当且仅当pg=pdata时,达到虚拟训练准则C(G)的全局最小值。此时,C(G)达到值 log 4。
证明。对于pg=pdata,DG*(x)=½,(考虑等式。2)。因此,通过检查等式。4在DG*(x)=1 2时,我们发现C(G)=log½+log½=−log 4。要查看这是C(G)的最佳可能值,仅在pg=pdata时达到,请观察
并且通过从C(G)=V(DG*,G)中减去该表达式,我们得到:
其中KL是Kullback Leibler散度。我们在前面的表达式中认识到模型分布和数据生成过程之间的JensenShannon散度:
由于两个分布之间的Jensen Shannon散度总是非负的,并且零当且仅当它们相等时,我们已经证明了c*= − log(4)是C(G)的全局最小值,并且唯一的解是pg=pdata,即完美复制数据分布的生成模型。
4.2 Convergence of Algorithm 1
2号提案。如果G和D有足够的容量,在算法1的每一步,允许鉴别器达到给定G的最优值,并且更新pg以改进准则
然后pg收敛到pdata
证明。考虑V (G, D) = U (pg, D)作为pg的函数,如在上述标准中所做的。注意U (pg, D)在pg中是凸的。凸函数上确界的子导数包括该函数在达到最大值点的导数。换言之,如果f(x)=sup α∈A fα(x)且fα(x)在x上对于每一个α是凸的,则∂fβ(x) ∈∂f如果β=arg sup α∈A fα(x)。这相当于在给定相应的G的情况下,在最优D处计算pg的梯度下降更新。supD U (pg, D)在pg中是凸的,具有唯一的全局最优,如Thm 1中所证明的,因此,在pg的足够小的更新下,pg收敛到px,从而结束该证明。
在实践中,对抗网通过函数G(z; θg)表示一个有限的pg分布族,并且我们优化θg而不是pg本身,所以证明不适用。然而,多层感知器在实践中的优异性能表明,尽管缺乏理论保证,但它们是一个合理的模型。
5 Experiments
我们在一系列数据集上训练了对抗网络,包括MNIST[21]、多伦多人脸数据库(TFD)[27]和CIFAR 10[19]。发电机网络混合使用整流器线性激活[17,8]和sigmoid激活,而鉴别器网络使用maxout[9]激活。Dropout[16]应用于训练鉴别器网。虽然我们的理论框架允许在生成器的中间层使用Dropout和其他噪声,但我们只将噪声用作发生器网络最底层的输入。
我们通过对G生成的样本拟合高斯Parzen窗口并报告该分布下的对数似然来估计pg下测试集数据的概率。通过在验证集上的交叉验证获得了高斯函数的σ参数。Breuleux等人介绍了该程序。[7]并用于精确似然不易处理的各种生成模型[24,3,4]。结果如表1所示。这种估计似然性的方法具有较高的方差,在高维空间中表现不佳,但它是我们所知的最佳方法。可以采样但不能估计可能性的生成模型的进步直接激发了对如何评估这种模型的进一步研究。在图2和图3中,我们显示了训练后从发电机网络中提取的样本。虽然我们没有声称这些样本比现有方法生成的样本更好,但我们相信这些样本至少可以与文献中更好的生成模型竞争,并突出了对抗性框架的潜力。
表1:基于Parzen窗口的对数似然估计。MNIST上报告的数字是测试集上样本的平均对数似然,平均值的标准误差是跨示例计算的。在TFD上,我们计算了数据集折叠的标准误差,使用每个折叠的验证集选择了不同的σ。在TFD上,在每个倍数上交叉验证σ,并计算每个倍数上的平均对数似然。对于MNIST,我们与数据集的实值(而不是二进制)版本的其他模型进行比较。
图2:模型样本的可视化。最右边的列显示了相邻样本的最近训练示例,以证明模型没有记住训练集。样品是公平的随机抽取,而不是精选的。与大多数其他深度生成模型的可视化不同,这些图像显示的是模型分布的实际样本,而不是给定隐藏单元样本的条件平均值。此外,这些样本是不相关的,因为采样过程不依赖于马尔可夫链混合。a)MNIST b)TFD c)CIFAR 10(全连接模型)d)CIFAR 10(卷积鉴别器和“反卷积”发生器)
图3:通过在完整模型的z空间中的坐标之间线性插值获得的数字。
输入噪声是渐变,生成的图像也是渐变。
6 Advantages and disadvantages
缺点:没有真正的拟合出原始数据的概率分布分布,第二是必须进行同步的训练。
优点:不需要马尔科夫链了,只需要进行反向传播可以进行训练,不需要用前面的像素去预测后边的像素了,是进行端到端的学习,并且深度神经网络里边大量的优化都可以在训练对抗网络的过程中使用。
相对于以前的建模框架,这个新框架具有优点和缺点。缺点主要是没有pg(x)的显式表示,并且D必须在训练期间与G很好地同步(特别地,G不能在不更新D的情况下被训练太多,以避免“Helvetica场景”,其中G将太多的z值折叠为相同的x值,以具有足够的多样性来建模pdata),就像玻尔兹曼机器的负链必须在学习步骤之间保持最新一样。其优点是不需要马尔可夫链,只使用backprop来获得梯度,在学习过程中不需要推理,并且可以将多种函数合并到模型中。表2总结了生成对抗网络与其他生成建模方法的比较。
表2:生成建模中的挑战:对于涉及模型的每个主要操作,深度生成建模的不同方法所遇到的困难的总结。
生成器不是直接用原始数据来进行训练,而通过欺骗判别器来进行训练,这种的训练方式在原生上已经阻碍了过拟合的产生,GAN可以表示非常尖锐甚至恶化、退化的分布。
上述优点主要是计算性的。对抗性模型也可以从生成器网络中获得一些统计优势,该生成器网络不直接用数据示例更新,而仅用流经鉴别器的梯度更新。这意味着输入的分量不会直接复制到生成器的参数中。对抗网络的另一个优点是,它们可以表示非常尖锐甚至退化的分布,而基于马尔可夫链的方法要求分布有些模糊,以便链能够在模式之间混合。
在 GAN(Generative Adversarial Networks)论文或文章中的 "Advantages and Disadvantages" 部分的每个段落的详细总结:
1. Advantages (优点) :
这部分列举了 GAN 模型的优点。通常包括以下内容:
- 高质量的数据生成:GAN 能够生成逼真的数据,例如图像、音频和文本,使其在图像生成、合成和翻译等领域非常有用。
- 无监督学习:GAN 可以在无需标签数据的情况下学习数据的分布,这对于许多现实应用非常有价值。
- 创造性:GAN 可以生成新的、原创的数据,有助于艺术创作和创新。
- 应用广泛:GAN 可以用于多种领域,包括计算机视觉、自然语言处理、音频处理等。
2. Disadvantages (不足之处) :
这一部分指出了 GAN 模型的不足之处。通常包括以下内容:
- 训练的不稳定性:GAN 的训练可能不稳定,容易出现训练崩溃或模式崩溃等问题。
- 模型模式塌缩:有时生成的数据可能集中在少数几种模式中,导致缺乏多样性。
- 模式匹配:GAN 可能学习到数据的一些细节,而非真正理解数据的语义和结构。
- 超参数敏感:许多 GAN 模型对于超参数的选择非常敏感,需要经过多次实验来调整。
3. Future Directions (未来方向) :
这一部分可能提供了未来 GAN 研究方向的建议,以解决不足之处。建议可能包括:
-
-
- 改进训练稳定性:研究方法以改善 GAN 模型的训练稳定性。
- 提高多样性:研究如何增加生成数据的多样性,避免模式塌缩问题。
- 真实数据理解:研究如何使 GAN 模型更好地理解数据的语义和结构。
- 超参数自动调整:研究自动选择合适超参数的方法。
-
"Advantages and Disadvantages" 部分有助于读者了解 GAN 模型的优点和限制,并可能为后续研究方向提供启发。这些优点和不足之处对于决定是否使用 GAN 模型以及如何改进 GAN 模型都非常重要。
7 Conclusions and future work
该框架允许许多简单的扩展:
(条件GAN)1.条件生成模型p(x | c)可以通过将c作为输入加到G和D上得到。
(输入X,预测Z,表征噪声Z所代表的是哪些特征)2.学习的近似推理可以通过训练辅助网络来执行,以预测给定x的z。这类似于由唤醒——睡眠算法[15]训练的推理网,但优点是在生成器网完成训练后,推理网可以被训练用于固定的生成器网
(图像填充和超分辨率)3.通过训练共享参数的条件模型族,可以近似地模拟所有条件p(xS | x¢),其中S是x的指数的子集。本质上,人们可以使用对抗网络来实现确定性MP DBM的随机扩展[10]。
4.半监督学习:当有限的标记数据可用时,来自鉴别器或推理网的特征可以提高分类器的性能。
(改进优化器,改进训练函数,改进训练的范式达到更容易训练的目的)5.提高效率:通过设计协调G和D的更好方法或确定训练期间样本z的更好分布,可以大大加快训练速度。
本文展示了对抗性建模框架的可行性,表明这些研究方向可能是有用的。
Acknowledgments
我们要感谢Patrice Marcotte、Olivier Delalleau、Kyunghyun Cho、Guillaume Alain和Jason Yosinski进行了有益的讨论。Yann Dauphin与我们分享了他的Parzen窗口评估代码。我们要感谢Pylearn2[11]和Theano[6,1]的开发者,特别是Fŕed́eric Bastien,他专门为这个项目开发了Theano功能。Arnaud Bergeron为LATEX排版提供了急需的支持。我们还要感谢CIFAR和加拿大研究主席的资助,以及加拿大计算和Calcul Qúebec提供的计算资源。伊恩·古德费勒得到了2013年谷歌深度学习奖学金的支持。最后,我们要感谢Les Trois Brasseurs激发了我们的创造力。
视频讲解参考:子豪兄