GAN原始论文翻译及相关推导_gan论文翻译-CSDN博客

本文链接：https://blog.csdn.net/u013972559/article/details/85230111

本文翻译并解析了GAN（生成对抗网络）的原始论文，介绍了GAN的基本框架，其中包含一个生成模型G和一个判别模型D。G尝试模仿数据分布，而D试图区分真实样本和G生成的样本。两者通过极小化极大博弈进行训练，最终达到G能恢复训练数据分布的目标。GAN避免了传统生成模型的复杂概率计算，使用反向传播和丢弃算法训练，适用于图像、音频等多种数据。文章还探讨了GAN的优势和挑战，如更快的样本生成速度、无下限限制，以及训练不稳定和模型自由度高等问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考博客：https://blog.csdn.net/stalbo/article/details/79283399

0、摘要

GAN提出了一个通过对抗过程估计生成模型的新框架，在新框架中同时训练两个模型：一个用来捕获数据分布的生成模型G，和一个用来估计样本来自训练数据而不是G的概率的判别模型D，G的训练过程是最大化D产生错误的概率。这个框架相当于一个极小极大化的双方博弈。在任意函数G 和D 的空间中存在唯一的解，其中G恢复训练数据分布，并且D处处都等于1/2 。在G和D 由多层感知器定义的情况下，整个系统可以用反向传播进行训练。在训练或生成样本期间不需要任何马尔科夫链或展开的近似推理网络。实验通过对生成的样品进行定性和定量评估来展示这个框架的潜力。

符号说明：

data →真实数据（groundtruth）
$p_{data}$ →真实数据的分布
→噪音
$p_{z}$ →原始噪音的分布
$p_{g}$ →经过生成器后的数据分布
G() →生成映射函数，代表生成器，结构为一个多层感知机，参数为 $\theta _{g}$ ， $G(z;\theta _{g})$ 为生成映射函数，将噪音映射到新的数据空间。
D() →判别映射函数，代表判别器，也是一个多层感知机，参数为 $\theta _{d}$ ， $D(x;\theta _{d})$ 输出为一个标量，表示来自真实数据 data 而不是生成数据的概率。

1、介绍

深度学习的任务是寻找丰富的层次模型，能够在人工智能领域里用来表达各种数据的概率分布，例如自然图像，包含语音的音频波形和自然语言语料库中的符号等。到目前为止，在深度学习领域，目前为止最成功的模型之一就是判别式模型，通常它们将高维丰富的特征表示输入映射到类别标签上。这些显著的成功主要是基于反向传播和丢弃（dropout）算法来实现的，特别是具有特别良好梯度的分段线性单元。由于在最大似然估计和相关策略中出现的许多难以解决的概率计算的困难，以及很难利用在生成上下文中时使用分段线性单元的好处，深度生成模型的影响很小。我们提出一个新的生成模型估计程序，来分步处理这些难题。

在提到的对抗网络框架中，生成模型对抗着一个对手：一个学习去判别一个样本是来自模型分布还是数据分布的判别模型。生成模型可以被认为是一个伪造团队，试图产生假货并在不被发现的情况下使用它，而判别模型类似于警察，试图检测假币。在这个游戏中的竞争驱使两个团队改进他们的方法，直到真假难分为止。

这个框架可以针对多种模型和优化算法提供特定的训练算法。在这篇文章中，我们探讨了生成模型通过将随机噪声传输到多层感知机来生成样本的特例，同时判别模型也是通过多层感知机实现的。我们称这个特例为对抗网络。在这种情况下，我们可以仅使用非常成熟的反向传播和丢弃算法训练两个模型，生成模型在生成样本时只使用前向传播算法。并且不需要近似推理和马尔可夫链作为前题。

2、相关工作

含隐变量的有向图模型可以由含隐变量的无向图模型替代，例如受限制波兹曼机（RBM），深度波兹曼机（DBM）和它们很多的变种。这些模型之间的相互影响可以被表达为非标准化的势函数的乘积，再通过随机变量的所有状态的全局整合来标准化。这个数量（配分函数）和它的梯度的估算是很棘手的，尽管他们能够依靠马尔可夫链和蒙特卡罗（MCMC）算法来估计，同时依靠MCMC算法的混合也会引发一个严重的问题。

深度信念网络（DBN）是一个包含一个无向层和若干有向层的混合模型。当使用一个快速逐层训练法则时，DBNS 会引发无向模型和有向模型相关的计算难题。

不是利用似然函数的估计或约数的选择准则已经被提出来了，例如分数匹配和噪音压缩评估（NCE）。他们都需要知道先验概率密度知识用来分析指定一个规范化的常量。请注意,许多有趣的带有一些隐层变量的生成模型（如DBN和DBM），它们甚至不需要一些难以处理的非标准化的概率密度先验知识。一些模型如自动编码降噪机和压缩编码的学习准则与分数匹配在RBM上的应用非常相似。在NCE中，使用一个判别训练准则来拟合一个生成模型。然而,生成模型常常被用来判别从一个固定噪音分布中抽样生成的数据，而不是拟合一个独立的判别模型。由于NCE使用一个固定的噪音分布，仅仅是从观测变量的一个小子集中学习到一个大致正确的分布后，模型的学习便急剧减慢。</