一篇读懂生成对抗网络（GAN）原理+tensorflow代码实现(花费10分钟，不要急躁)

最新推荐文章于 2024-07-23 10:27:25 发布

Jason160918

最新推荐文章于 2024-07-23 10:27:25 发布

阅读量1.9w

点赞数 48

分类专栏：算法文章标签： tensorflow GAN python 深度学习自然语言处理

本文链接：https://blog.csdn.net/jason160918/article/details/78248066

版权

作者：JASON
2017.10.15

10分钟把故事说完！

在这里插入图片描述

生成对抗网络GAN（Generative adversarial networks）是最近很火的深度学习方法，要理解它可以把它分成生成模型和判别模型两个部分，简单来说就是：两个人比赛，看是 A 的矛厉害，还是 B 的盾厉害。比如，有一个业余画家总喜欢仿造著名画家的画，把仿造的画和真实的画混在一起，然后有一个专家想办法来区分那些是真迹，那些是赝品。通过不断的相互博弈，业余画家的仿造能力日益上升，与此同时，通过不断的判断结果反馈，积累了不少经验，专家的鉴别能力也在上升，进一步促使业余专家的仿造能力大幅提升，最后使得业余专家的仿造作品无限接近与真迹，使得鉴别专家无法辨别，最后判断的准确率为0.5。

总的来说，Goodfellow等人提出的GAN是通过对抗过程来估计生成模型的框架。在这种框架下，我们需要同时训练两个网络，即一个能获取数据分布的生成模型G和一个估计数据来源于真实样本概率的判别模型D。生成器的训练目的是最大化判别器犯错误的概率，而判别器的训练过程是最小化犯错误的概率。因此这一过程存在一个极大极小博弈（minimax game）。在所有可能的G和D函数中，存在一个唯一均衡解。即生成模型可以生成训练样本相同的数据分布，而此时判别模型的概率处处为1/2。

当模型都为多层感知机时，对抗性建模框架可以最直接地应用。为了学习到生成器在数据 x 上的分布 P_g，我们先定义一个先验的输入噪声变量 P_z(z)，然后根据 G(z;θ_g) 将其映射到数据空间中，其中 G 为多层感知机所表征的可微函数。我们同样需要定义第二个多层感知机 D(s;θ_d)，它的输出为单个标量。D(x) 表示 x 来源于真实数据而不是 P_g 的概率。我们训练 D 以最大化正确分配真实样本和生成样本的概率，因此我们就可以通过最小化 log(1-D(G(z))) 而同时训练 G。也就是说判别器 D 和生成器G对价值函数 V(G,D) 进行了极小极大化博弈：
这里写图片描述
此外，Goodfellow 等人在论文中使用如下案例为我们简要介绍了基本概念。

如上图所示，生成对抗网络会训练并更新判别分布（即 D，蓝色的虚线），更新判别器后就能将数据真实分布（黑点组成的线）从生成分布 P_g(G)（绿色实线）中判别出来。下方的水平线代表采样域 Z，其中等距线表示 Z 中的样本为均匀分布，上方的水平线代表真实数据 X 中的一部分。向上的箭头表示映射 x=G(z) 如何对噪声样本（均匀采样）施加一个不均匀的分布 P_g。(a)考虑在收敛点附近的对抗训练：P_g 和 P_data 已经十分相似，D 是一个局部准确的分类器。(b)在算法内部循环中训练 D 以从数据中判别出真实样本，该循环最终会收敛到 D(x)=P_data(x)/(P_data(x)+P_g(x))。©随后固定判别器并训练生成器，在更新 G 之后，D 的梯度会引导 G(z)流向更可能被 D 分类为真实数据的方向。(d)经过若干次训练后，如果 G 和 D 有足够的复杂度，那么它们就会到达一个均衡点。这个时候 P_g=P_data，即生成器的概率密度函数等于真实数据的概率密度函数，也即生成的数据和真实数据是一样的。在均衡点上 D 和 G 都不能得到进一步提升，并且判别器无法判断数据到底是来自真实样本还是伪造的数据，即 D(x)= 1/2。
上面是比较精简地介绍了生成对抗网络的基本概念，下一节将会把这些概念形式化，并描述优化的大致过程。