生成对抗网络-理论部分|深度学习（李宏毅）（二十三）

最新推荐文章于 2022-08-26 22:46:26 发布

酷酷的群

最新推荐文章于 2022-08-26 22:46:26 发布

阅读量321

点赞数 1

分类专栏：深度学习（李宏毅）文章标签：机器学习深度学习人工智能算法自然语言处理

本文链接：https://blog.csdn.net/weixin_42431920/article/details/114304127

版权

深度学习（李宏毅）专栏收录该内容

23 篇文章 13 订阅

订阅专栏

视频地址：
①B站：https://www.bilibili.com/video/BV15W411i7uP
②油管：https://www.youtube.com/watch?v=0CKeqXl5IY0

之前的博客地址：生成对抗网络-基本概念|深度学习（李宏毅）（二十二）

一、极大似然估计

极大似然估计

在GAN中，对于真实的训练样本的分布，记作 $P_{data}(x)$ ，这个分布也就是GAN试图去拟合、逼近的分布。另外有一个由参数 $\theta$ 控制的分布记作 $P_{G}(x;\theta )$ ，其实也就是GAN或者说Generator生成的对象的分布。简单来说我们的目标就是让 $P_{G}(x;\theta )$ 和 $P_{data}(x)$ 越接近越好。

举例来说， $P_{G}(x;\theta )$ 可以是一个高斯混合模型（Gaussian Maxture Model，GMM），那么此时参数 $\theta$ 就是GMM中高斯分布的均值和方差或者其他参数，我们的目的也就是求解最优的参数 $\theta$ 来让 $P_{G}(x;\theta )$ 尽可能地接近 $P_{data}(x)$ 。从 $P_{data}(x)$ 中采样 $\left \{x^{1},x^{2},\cdots ,x^{m}\right \}$ ，对于 $x^i$ 我们可以计算 $P_{G}(x^{i};\theta )$ ，然后就可以计算样本的似然：

$L=\prod_{i=1}^{m}P_{G}(x^{i};\theta )$

寻找最优化的参数 $\theta ^{*}$ 的方法也就是极大似然估计的方法，即寻找一个参数 $\theta ^{*}$ 来最大化 $L$ 。我们可以对这个过程做以下变换：

$\theta ^{*}=\underset{\theta }{argmax}\prod_{i=1}^{m}P_{G}(x^{i};\theta )\\ =\underset{\theta }{argmax}\; log\prod_{i=1}^{m}P_{G}(x^{i};\theta )\\ =\underset{\theta }{argmax}\sum_{i=1}^{m}logP_{G}(x^{i};\theta )\\ \approx \underset{\theta }{argmax}E_{x\sim P_{data}}[logP_{G}(x^{i};\theta )]\\ =\underset{\theta }{argmax}\int _{x}P_{data}(x)logP_{G}(x;\theta )\mathrm{d}x\\ =\underset{\theta }{argmax}(\int _{x}P_{data}(x)logP_{G}(x;\theta )\mathrm{d}x-\int _{x}P_{data}(x)logP_{data}(x)\mathrm{d}x)\\ =\underset{\theta }{argmin}\; KL(P_{data}(x)||P_{G}(x;\theta ))$

上面的式子中，由于 $\left \{x^{1},x^{2},\cdots ,x^{m}\right \}$ 是从 $P_{data}(x)$ 采样得到的样本，因此似然就近似于上式中关于 $P_{data}(x)$ 的期望值，这个期望值写成积分的形式后可以减去一个与 $\theta$ 无关的项，最终得到 $P_{data}(x)$ 与 $P_{G}(x;\theta )$ 的KL散度。也就是说，求解参数 $\theta$ 的过程，也就是最小化分布 $P_{data}(x)$ 与 $P_{G}(x;\theta )$ 的KL散度的过程，使得这两个分布能够不断地逼近。KL散度能够用来衡量两个分布的接近程度（越小越接近），其公式如下：

$KL(P(x)||Q(x))=\int _{x}P(x)log\frac{P(x)}{Q(x)}\mathrm{d}x$

存在的问题

使用GMM的话会限制模型的拟合能力，而对于要拟合的分布 $P_{data}(x)$ 来说，其往往是图片、文字一类复杂的结构，因此我们期待使用一个神经网络，也就是一个比较复杂的、拟合能力较强的、一般化的 $P_{G}(x;\theta )$ 。现在我们尝试使用一个神经网络来替代GMM，现在的 $\theta$ 也就相当于神经网络的参数，具体地，我们有一个Generator，它的输入是一个随机变量 $z$ ， $z$ 服从高斯分布或者均匀分布 $P_{prior}(z)$ ，而它的输出就是 $G (z) = x$ ，可以理解为生成的图片。也就是说现在我们的目标就是学习一个最优化的Generator的参数 $\theta$ ，来让 $z$ 通过Generator产生的 $x$ 的分布 $P_{G}(x;\theta )$ 与 $P_{data}(x)$ 越接近越好：

Generator

由于 $z$ 是一个服从高斯分布或者均匀分布的随机变量，因此通过Generator以后得到的 $x$ 也会服从一个分布，虽然 $z$ 服从一个简单的分布，但是由于神经网络可以是很庞大的，因此 $x$ 的分布可以是很复杂的。计算 $x$ 出现的概率可以使用以下公式：

$P_{G}(x)=\int _{z}P_{prior}(z)I_{[G(z)=x]}\mathrm{d}z$

对于上面的概率公式，这个概率是很难计算的，显然不能用它来做极大似然估计，因此问题也就出在这里。类比GMM，在GMM中生成的过程是先从几个高斯分布中按照一定概率来抽取一个高斯分布，然后从这个高斯分布中抽取一个 $x$ ，而在Generator中生成的过程是从 $P_{prior}(z)$ 抽取一个 $z$ ，然后 $z$ 通过 $G (z)$ 得到 $x$ ，不一样的是对于一个给定的 $x$ ，GMM可以轻易地计算 $x$ 出现的概率，而Generator的对于一个给定的 $x$ 很难计算其概率，并且概率公式中还包含指示函数，使得进行极大似然估计时没办法做微分，也就出现了问题，而GAN的优势就在于它解决了这个问题，这就是GAN最大的贡献。

二、GAN的原理

GAN的基本理念

在GAN中Generator是一个函数 $G$ ，输入是 $z$ ，输出是 $x$ ，给定一个 $z$ 的分布 $P_{prior}(z)$ ，函数 $G$ 也就定义了分布 $P_{G}(x)$ ，然而单纯利用Generator无法使用极大似然估计。另外有一个Discriminator记作函数 $D$ ，它的输入是 $x$ ，输出是一个标量，它能够衡量 $P_{G}(x)$ 与 $P_{data}(x)$ 之间的差异，不过它计算的不是KL散度，而是另一种散度。如何利用GAN来求解最优化的Generator呢？只需要求解下面这个式子：

$G^{*}=\underset{G}{argmin}\; \underset{D}{max}\; V(G,D)$

直观地来看，如下图，对于上面的式子，如果对于特定的 $G$ ，比如 $G_1$ 、 $G_2$ 、 $G_3$ ，令 $V (G, D)$ 最大的 $D$ 就是红点对应的 $D$ ，然后求解使 $\underset{D}{max}\; V(G,D)$ 最小的 $G$ ，就能解得最优化的 $G_3$ ：

$V$ 也就是目标函数，可以使用这个式子：

$V=E_{x\sim P_{data}}[logD(x)]+E_{x\sim P_{G}}[log(1-D(x))]$

对于一个给定的 $G$ ， $\underset{D}{max}\; V(G,D)$ 的值就相当于 $P_{G}(x)$ 与 $P_{data}(x)$ 之间差异的程度，其实这个值就等于 $P_{G}(x)$ 与 $P_{data}(x)$ 的某种散度，然后再求解一个能使 $\underset{D}{max}\; V(G,D)$ 最小的 $G$ ，就能找到一个能使 $P_{G}(x)$ 与 $P_{data}(x)$ 最接近的 $G$ 了。

GAN的原理

接下来就解释一下为什么按照上面的方式求解就能得到最优化的结果。首先对于一个给定的 $G$ ，寻找需要寻找一个 $D^*$ 来使 $V (G, D)$ 最大，我们先来将 $V (G, D)$ 的式子展开：

$V=E_{x\sim P_{data}}[logD(x)]+E_{x\sim P_{G}}[log(1-D(x))]\\ =\int _{x}P_{data}(x)logD(x)\mathrm{d}x+\int _{x}P_{G}(x)log(1-D(x))\mathrm{d}x\\ =\int _{x}[P_{data}(x)logD(x)+P_{G}(x)log(1-D(x))]\mathrm{d}x$

对于上面的式子，我们想让 $V (G, D)$ 最大，自然希望对于每一个 $x$ ，积分号里面的式子都能最大，因此我们只看积分号里面的部分：

$P_{data}(x)logD(x)+P_{G}(x)log(1-D(x))$

上面的式子中， $P_{data}(x)$ 作为客观存在的分布，因此看做常数，而 $P_{G}(x)$ 由于是给定的，因此也看做常数，而 $D (x)$ 作为变量，也就是：

$\underset{a}{P_{data}(x)}log\underset{D}{D(x)}+\underset{b}{P_{G}(x)}log(1-\underset{D}{D(x)})$

那这个问题就成了求解 $D^*$ 来使得下面这个式子最大的问题：

$f (D) = a l o g D + b l o g (1 - D)$

直接微分然后令其等于 $0$ 即可：

$\frac{\mathrm{d}f(D)}{\mathrm{d}D}=a\times \frac{1}{D}-b\times\frac{1}{1-D}\\ \Rightarrow a\times \frac{1}{D^{*}}-b\times\frac{1}{1-D^{*}}=0\\ \Rightarrow D^{*}=\frac{a}{a+b}$

也就是说：

$D^{*}(x)=\frac{P_{data}(x)}{P_{data}(x)+P_{G}(x)}$

最优的 $D^{*}(x)$ 显然位于 $0$ 到 $1$ 之间，因此在实际实现GAN时可以给Discriminator最后设置一个sigmoid函数。

在下图中，不同的 $G$ 的图像的最高点对应的 $D (x)$ 就对应着由上面的式子解出来的 $D^*(x)$ ，而将 $D^*(x)$ 代入 $V (G, D)$ 中得到的 $V(G,D^*)$ 就表示了在给定的当前 $G$ 的情况下 $P_{G}(x)$ 与 $P_{data}(x)$ 的某种散度，在图中也就是红点到横轴的距离：

接下来说明为什么 $\underset{D}{max}\; V(G,D)$ 能够代表 $P_{G}(x)$ 与 $P_{data}(x)$ 之间的差异程度。将 $D^{*}(x)$ 代入 $V (G, D)$ 中并做一些变换：

$\underset{D}{max}\; V(G,D)=V(G,D^{*})\\ =E_{x\sim P_{data}}[log\frac{P_{data}(x)}{P_{data}(x)+P_{G}(x)}]+E_{x\sim P_{G}}[log\frac{P_{G}(x)}{P_{data}(x)+P_{G}(x)}]\\ =\int _{x}P_{data}(x)log\frac{P_{data}(x)}{P_{data}(x)+P_{G}(x)}\mathrm{d}x+\int _{x}P_{G}(x)log\frac{P_{G}(x)}{P_{data}(x)+P_{G}(x)}\mathrm{d}x\\ =\int _{x}P_{data}(x)log\frac{P_{data}(x){\color{Red}{/2}}}{(P_{data}(x)+P_{G}(x)){\color{Red}{/2}}}\mathrm{d}x+\int _{x}P_{G}(x)log\frac{P_{G}(x){\color{Red}{/2}}}{(P_{data}(x)+P_{G}(x)){\color{Red}{/2}}}\mathrm{d}x\\ =\int _{x}P_{data}(x)\left ({\color{Red}{log\frac{1}{2}}}+log\frac{P_{data}(x)}{(P_{data}(x)+P_{G}(x)){\color{Red}{/2}}}\right )\mathrm{d}x+\int _{x}P_{G}(x)\left ({\color{Red}{log\frac{1}{2}}}+log\frac{P_{G}(x)}{(P_{data}(x)+P_{G}(x)){\color{Red}{/2}}}\right )\mathrm{d}x\\ ={\color{Red}{-2log2}}+\int _{x}P_{data}(x)log\frac{P_{data}(x)}{(P_{data}(x)+P_{G}(x))/2}\mathrm{d}x+\int _{x}P_{G}(x)log\frac{P_{G}(x)}{(P_{data}(x)+P_{G}(x))/2}\mathrm{d}x\\ =-2log2+{\color{Red}{KL\left (P_{data}(x)||\frac{P_{data}(x)+P_{G}(x)}{2} \right )}}+{\color{Red}{KL\left (P_{G}(x)||\frac{P_{data}(x)+P_{G}(x)}{2} \right )}}\\ =-2log2+{\color{Red}{2JS(P_{data}(x)||P_{G}(x))}}$

这里我们定义另一种衡量分布差异程度的散度，叫做JS散度（Jensen–Shannon Divergence，JSD）。不同于KL散度的是，JS散度是对称的，也就是 $J S (P ∣ ∣ Q) = J S (Q ∣ ∣ P)$ 。它的定义如下：

$JS(P(x)||Q(x))=\frac{1}{2}KL(P(x)||M(x))+\frac{1}{2}KL(Q(x)||M(x)),\; 其中M(x)=\frac{1}{2}(P(x)+Q(x))$

因此将 $\underset{D}{max}\; V(G,D)$ 也就相当于在衡量 $P_{G}(x)$ 与 $P_{data}(x)$ 的JS散度，JS散度的值介于 $0$ 到 $l o g 2$ 之间，如果两个分布完全一致那么其JS散度就是 $0$ ，如果两个分布完全没有交集，那么其JS散度就是 $l o g 2$ 。当然也可以识别别的 $V$ 来让它衡量别的散度。

总结一下：

①首先我们有一个Generator $G$ 和一个Discriminator $D$ ；
②我们需要通过下面这一个式子寻找一个 $G^*$ ：
$G^{*}=\underset{G}{argmin}\; \underset{D}{max}\; V(G,D)$
③对于给定的 $G$ ，有：
$\underset{D}{max}\; V(G,D)=-2log2+2JS(P_{data}(x)||P_{G}(x))$
④然后需要求解最优的 $G$ ，满足 $P_{G}(x)=P_{data}(x)$ 时才会得到最小的 $V (G, D)$ 。

算法

接下来要做的就是求解求解 $G^*$ ，我们把 $\underset{D}{max}\; V(G,D)$ 记作 $L (G)$ ，那么求解 $G^*$ 的方法按照梯度下降的方法就好：

$\theta _{G}\leftarrow \theta _{G}-\eta \frac{\partial L(G)}{\partial \theta _{G}}$

那么对于 $L (G)$ 这样这种带 $m a x$ 的式子要怎么做微分呢？我们可以把带 $m a x$ 的问题以下面这个问题来看，对于函数 $f (x)$ ，其公式为：

$f(x)=max\left \{f_{1}(x),f_{2}(x),f_{3}(x)\right \}$

现在要求解 $\frac{\mathrm{d}f(x)}{\mathrm{d}x}$ ，那么假设 $f (x)$ 的图像如下：

f(x)

那么在求解时 $x$ 所在的位置对应的哪一个 $f_{i}(x)$ 最大，那么对 $x$ 的微分也就是 $\frac{\mathrm{d}f_{i}(x)}{\mathrm{d}x}$ ：

在求解这个问题时就按照对当前 $x$ 对应的最大的 $f_i(x)$ 微分的方式进行梯度下降即可：

梯度下降

上面的问题类比到求解 $G^*$ 上就是 $f (x)$ 相当于 $L (G)$ ， $x$ 相当于 $G$ ， $f_i(x)$ 也就相当于不同的 $D$ ，只不过 $f_i(x)$ 是有限个， $D$ 有无限多个，不同的 $G$ 也就对应了不同的能使 $V$ 最大的 $D^*$ 。因此我们的求解方式是按照梯度下降的方法来求解 $G^*$ ，每次更新 $\theta _{G}$ 以后要计算当前 $G$ 对应的 $D^*$ ，然后再一次地更新 $\theta _{G}$ 。该流程如下：

初始化 $G_0$
求解 $D_0^*$ 来最大化 $V(G_0,D)$ ， $V(G_0,D_0^*)$ 就是 $P_{G_0}(x)$ 与 $P_{data}(x)$ 的JS散度
更新 $\theta _{G}$ 来获得 $G_1$ ：
$\theta _{G}\leftarrow \theta _{G}-\eta \frac{\partial V(G_{0},D_0^{*})}{\partial \theta _{G}}$
求解 $D_1^*$ 来最大化 $V(G_1,D)$ ， $V(G_0,D_1^*)$ 就是 $P_{G_1}(x)$ 与 $P_{data}(x)$ 的JS散度
更新 $\theta _{G}$ 来获得 $G_2$ ：
$\theta _{G}\leftarrow \theta _{G}-\eta \frac{\partial V(G_{0},D_1^{*})}{\partial \theta _{G}}$
……

这里有个小问题就是在使用梯度下降更新过 $G$ 以后可能会使得 $P_{G}(x)$ 与 $P_{data}(x)$ 的JS散度不减反增，比如下图这个例子，横轴表示 $D$ ，在更新过 $G$ 的参数后有可能 $\underset{D}{max}\; V(G,D)$ 会比原来更大，对于这样的问题我们就只能假设 $D_0^*\approx D_1^*$ ，在更新参数 $\theta _G$ 时一次不能更新太多：

issue

在实际操作的时候因为无法积分所以我们并不能真正地计算 $V$ 中的两个期望，因此采用采样的方法。对于给定的 $G$ ，求解使 $V (G, D)$ 最大化的 $D^*$ 时，从 $P_{data}(x)$ 中采样 $\left \{x^{1},x^{2},\cdots ,x^{m}\right \}$ ，从Generator $P_{G}(x)$ 中采样 $\left \{\tilde{x}^{1},\tilde{x}^{2},\cdots ,\tilde{x}^{m}\right \}$ ，然后最大化：

$\tilde{V}=\frac{1}{m}\sum_{i=1}^{m}log\; D(x^{i})+\frac{1}{m}\sum_{i=1}^{m}log\; \left (1-D(\tilde{x}^{i})\right )$

上面这个式子非常类似与一个二分类器的损失函数，也就是二分类的交叉熵，在二分类中，如果 $x$ 是个positive的样本，我们要尽可能地极小化 $- l o g D (x)$ ，如果 $x$ 是个negative的样本，我们要尽可能地极小化 $- l o g (1 - D (x))$ 。因此极大化 $\tilde{V}$ 也就相当于二分类问题中极小化交叉熵损失函数，也就是说，我们真正在求解 $D^*$ 时只需要当做一个二分类问题来做就好了，具体地：

$\left \{x^{1},x^{2},\cdots ,x^{m}\right \}\; from\; P_{data}(x)\Rightarrow positive\; examples\\ \left \{\tilde{x}^{1},\tilde{x}^{2},\cdots ,\tilde{x}^{m}\right \}\; from\; P_{G}(x)\Rightarrow negative\; examples\\ loss function:L=-\tilde{V}=-\left (\frac{1}{m}\sum_{i=1}^{m}log\; D(x^{i})+\frac{1}{m}\sum_{i=1}^{m}log\; \left (1-D(\tilde{x}^{i})\right )\right )$

这一点直观上也是可以理解的，如果这个二分类器的loss很小，就代表它可以很容易地分辨真实的样本和生成的样本， $P_{G}(x)$ 与 $P_{data}(x)$ 的JS散度就很大，而如果这个二分类器的loss很大，就代表它分辨不出真实的样本和生成的样本， $P_{G}(x)$ 与 $P_{data}(x)$ 的JS散度就很小。

现在我们就可以更加清晰地来理解上一篇文章中的训练的算法：

Initialize：
初始化 $D$ 的参数 $\theta _{d}$ 和 $G$ 的参数 $\theta _{g}$ 。

Step1 学习 $D$ ：
①从数据库中随机抽样 $m$ 个样本 $\left \{x^{1},x^{2},\cdots ,x^{m}\right \}$ ；
②从一个分布（比如高斯分布或者均匀分布）中采样 $m$ 个噪声样本（noise sample） $\left \{z^{1},z^{2},\cdots ,z^{m}\right \}$ ；
③获得 $G$ 生成的数据 $\left \{\tilde{x}^{1},\tilde{x}^{2},\cdots ,\tilde{x}^{m}\right \}$ ，其中 $\tilde{x}^{i}=G(z^{i})$ ；
④目标函数记作 $\tilde{V}$ ，通过最大化（梯度上升） $\tilde{V}$ 来更新 $\theta _{d}$ ，也就是 $\theta _{d}\leftarrow \theta _{d}+\eta \nabla \tilde{V}(\theta _{d})$ ，目标函数 $\tilde{V}$ 为：
$\tilde{V}=\frac{1}{m}\sum_{i=1}^{m}log\; D(x^{i})+\frac{1}{m}\sum_{i=1}^{m}log\; (1-D(\tilde{x}^{i}))$

Step2 学习 $G$ ：
①同样从一个分布（比如高斯分布或者均匀分布）中采样 $m$ 个噪声样本（noise sample） $\left \{z^{1},z^{2},\cdots ,z^{m}\right \}$ ；
②目标函数同样记作 $\tilde{V}$ ，通过最大化（梯度上升） $\tilde{V}$ 来更新 $\theta _{g}$ ，也就是 $\theta _{g}\leftarrow \theta _{g}+\eta \nabla \tilde{V}(\theta _{g})$ ，目标函数 $\tilde{V}$ 为：
$\tilde{V}=\frac{1}{m}\sum_{i=1}^{m}log\; D(G(z^{i}))$

上面的算法中Step1和Step2是交替进行的，但是在每一次迭代中应该将学习 $D$ 的步骤重复多次，不过即使这样也不能学习到 $D$ 的全局最优点，学习到的也只是 $D$ 的lower bound，而对于学习 $G$ 的步骤只需要进行一次，这是因为之前说过的原因，即 $G$ 不能一次更新太多。

三、实践中的一些issue

实作中Generator目标函数的问题

在训练Generator时，我们实际上在极小化这个式子：

$V=E_{x\sim P_{G}}[log(1-D(x))]$

以 $D (x)$ 为横轴，画出 $l o g (1 - D (x))$ 和 $- l o g D (x)$ 的图像如图所示：

在训练一开始， $D (x)$ 接近 $0$ ，但是 $l o g (1 - D (x))$ 的梯度比较小，在趋近于 $1$ 的地方 $l o g (1 - D (x))$ 的梯度反而比较大，这与我们的期待是不一致的，我们期望模型在训练初始时梯度应该大一些，在接近收敛时梯度应该小一些。因此，在实际操作中，我们真正优化的式子是：

$V=E_{x\sim P_{G}}[-logD(x)]$

这个式子的梯度就符合我们的期望，不过这样就不是在极小化JS散度，而是在极小化另外一个奇怪的散度。

评估JS散度

在训练Discriminator时，理论上Discriminator的loss就代表JS散度的大小，但是在实际操作时Discriminator的loss几乎趋近于 $0$ ，也就是说Discriminator总是有办法把生成的图片与真实的图片分开。举例来说，在下面的实验中，Generator采用了训练1、10、25个epoch的三种，其中训练越多epoch的Generator产生的图片越接近真实，但是从图中看到无论哪一种Generator它们的Discriminator的loss总是能够趋近于 $0$ ，并且Discriminator也总能训练到100%的准确率，Discriminator的loss并不能反映JS散度的大小：

另外一个例子如下，使用一个较强和一个较弱的Generator，可以看到强的Generator生成的图片已经很真实了，但是它们的Discriminator的loss缺失差不多的，这表明Discriminator的loss并没有反映JS散度：

Discriminator的loss接近于 $0$ ，表明JS散度最大，也就是 $l o g 2$ ， $P_{G}(x)$ 与 $P_{data}(x)$ 完全没有交集。原因有以下两点：

Reason1：通过采样的方式来训练

由于我们始终没有办法直接计算损失函数中的期望，因此只能通过采样的方法来进行训练，那么有可能如下图所示，对于采样出的样本，由于Discriminator过于powerful，那么它总有办法寻找一个边界来分开样本，类似过拟合：

过拟合

解决这种问题我们考虑让Discriminator变得弱一点，要么迭代次数少一点要么加dropout，不过要将Discriminator变弱到什么程度，这又是很难把握的，而且这与我们最初的设想又出现了矛盾，Discriminator能够衡量JS散度的一个前提就是Discriminator要足够地powerful，因此这里就出现了一些矛盾。

Reason2：数据的本质

GAN要拟合的数据和Generator生成的数据实际上是高维空间中的流形（manifold）。拿二维空间中的一维流形来说，可能 $P_{G}(x)$ 与 $P_{data}(x)$ 很少有交集，或者交集很少，像图中这样的数据的JS散度就会很小：

我们之前有说过GAN的训练和生物进化很类似，比如下面图中生物进化出眼睛的过程，只要从左到右的进化对生物的繁衍是有利的，这个进化的过程才能持续下去：

眼睛的进化

GAN的训练也类似，比如下图中 $P_{G}(x)$ 与 $P_{data}(x)$ 越来越接近，最终数据分布趋于一致，我们期待模型能够以这样的过程逐步迭代达到最佳效果，但是可以看出在达到最佳效果（JS散度为 $0$ ）之前，每一步的JS散度都是 $l o g 2$ ，也就是说目前的GAN没有动力一致演化下去：

GAN的训练

解决这个问题的方法是可以给Discriminator的输入添加一些噪声或者给标签添加一些噪声（随机标记一些正样本为负样本，负样本为正样本），这样会使数据产生下图中的效果，因而重叠的部分就有可能变大：

不过要将加入的噪声随着训练而减弱，否则会影响机器对真实的数据分布的判断。

另一种方式是使用别的度量差异度的方式，比如WGAN这方法，这一类方法下一篇中再具体介绍。

Mode Collapse

GAN还容易产生Mode Collapse的问题，以高斯分布为例，如果 $P_{data}(x)$ 有两个高斯分布，而 $P_{G}(x)$ 只产生了一个：

Mode Collapse

举例来说，在下面的二次元人物头像生成的图片中就有许多图片是重复的，这就是Mode Collapse的问题：

Mode Collapse

再举一个例子来说，比如要拟合的数据如下图：

真实数据

我们期待GAN能够按照下面的方式来逐步学习到数据的真实分布：

期待的结果

而实际的结果可能只会像下面这样，这就是Mode Collapse的问题：

实际的结果

出现Mode Collapse的原因可能如下图所示。在 $P_{data}$ 有两个高斯分布而 $P_{G}$ 只能产生一个高斯分布的情况下，对于KL散度，通过它的式子可以看出，在 $P_G$ 没有值，而 $P_{data}$ 有值的地方就会产生无穷大的值，因此为了让KL散度尽可能地小， $P_{G}$ 就会尽可能地覆盖所有 $P_{data}$ 有值的地方，即使有些 $P_{data}$ 没有值的地方被覆盖到也在所不惜。而对于Reverse KL散度来说正好相反，在 $P_{data}$ 没有值，而 $P_{G}$ 有值的地方就会产生无穷大的值，因此为了让Reverse KL散度小， $P_{G}$ 就不会冒险去覆盖 $P_{data}$ 没有值的地方，因此就可能会固守在一个高斯分布上：