GAN模型存在的问题分析（梯度消失、模式崩溃）

Masked5

已于 2022-06-04 17:00:16 修改

阅读量9.7k

点赞数 8

分类专栏：科研FW 文章标签： GAN 梯度消失模式崩溃

于 2022-06-04 16:56:53 首次发布

原文链接：https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFDLAST2020&filename=KXTS202001002&uniplatform=NZKPT&v=jyKKAwjXo9906jd4NV-jlYQEJeIpx2a4ep59zYV3a2Jkb-r7y8jXJ5X8Zu-7TEjx

版权

科研FW 专栏收录该内容

24 篇文章

订阅专栏

本文深入分析了生成对抗网络（GAN）在训练过程中遇到的两大难题：梯度消失和模式崩溃。梯度消失导致生成器在优化过程中得不到有效的梯度信息，特别是在判别器接近最优时，问题尤为严重。模式崩溃则表现为生成器只能生成有限种类的样本，缺乏多样性。这两个问题限制了GAN的性能，文中通过数学推导揭示了问题的本质，并引用相关研究进行了说明。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

原始的GAN并不成熟，存在着诸多问题，其中梯度消失和模式崩溃（collapse mode）问题严重限制GAN的发展。只有了解问题发生的本质，才能做出相应的改进，本章主要对GAN在训练中存在梯度消失和模式崩溃的原因进行分析。

梯度消失问题分析

梯度消失即是利用误差反向传播（back propagation,BP）算法对深度神经网络进行训练时，梯度后向传播到浅层网络时基本不能引起数值的扰动，最终导致神经网络收敛很慢甚至不能收敛。GAN存在梯度消失的问题，并且在判别器训练得越好的时候，生成器梯度消失得越严重。最优判别器如下式:
$D_{G}^{*}(x)=\frac{p_{\mathrm{data}}(x)}{p_{\mathrm{data}}(x)+P_{g}(x)}$
在最极端的情况下，当判别器达到最优时，此时生成器模型如下式。
$\begin{aligned} &C(G)=\max _{D} V(G, D)= \\ &E_{x-p_{\text {data }}}\left[\mathrm{lb} \frac{p_{\text {data }}(x)}{p_{\text {data }}(x)+p_{g}(x)}\right]+E_{x-p_{g}}\left[\mathrm{lb} \frac{p_{g}(x)}{p_{\text {data }}(x)+p_{g}(x)}\right] \end{aligned}$
原始GAN模型使用KL散度（Kullback-Leibler divergence)和JS散度（Jensen-Shannon)衡量两个分布之间的差异，即是：
$\begin{aligned} &C(G)=-\mathrm{lb} 4+K L\left(P_{\text {data }} \| \frac{p_{\text {data }}+p_{g}}{2}\right)+ \\ &K L\left(p_{g} \| \frac{p_{\text {data }}+p_{z}}{2}\right)=-\mathrm{lb} 4+2 J S\left(p_{\text {data }} \| p_{g}\right) \end{aligned}$
其中: $L\left(p_{1} \| p_{2}\right)=E_{x-p}\left(\operatorname{lb} \frac{p_{1}}{p_{2}}\right)$

$S\left(p_{1} \| p_{2}\right)=\frac{1}{2} K L\left(p_{1} \| \frac{p_{1}+p_{2}}{2}\right)+\frac{1}{2} K L\left(p_{2} \| \frac{p_{1}+p_{2}}{2}\right)$

训练GAN网络需要极小化 $C (G)$ ，即是要求 $min(JS(p_{data}||p_g))$ ,JS散度的值越小表示两个分布之间越接近，这符合生成器的优化目标，即是要生成以假乱真的样本（两个样本之间的概率分布很接近）。

当两个分布有重叠的时候，优化JS散度是可行的，而在两个分布完全没有重叠部分，或者重叠的部分可以忽略时，JS散度是一个常数，此时梯度为0，即生成器在训练的过程中得不到任何的梯度信息，出现梯度消失的现象。下面从两个分布是否有重叠部分分析梯度消失的原因。

对于两个分布 $p_{data} (x)$ 和 $p_g (x)$ ,不难得出如下四种情况，如下图所示。

Case 1： $p_{data} (x) = 0$ and $p_g (x) = 0$

Case 2 ： $p_{data} (x) ≠ 0$ and $p_g (x) ≠ 0$

Case 3 ： $p_{data} (x) = 0$ and $p_g (x) ≠ 0$

Case 4 ： $p_{data} (x) ≠ 0$ and $p_g (x) = 0$

样本分布图

(1）两个分布没有重叠部分。对于情况1，由于 $p_data$ 和 $p_g$ 的取值都在函数的支撑集（support）之外，因此情况1对JS散度无贡献。

情况2由于两个分布的支撑集没有交集，因此对最后的JS散度也无贡献。

对于情况3，将 $p_{data}(x)=0$ 且 $p_g(x)≠0$ 带入式（4），得到式（5）。
$\begin{aligned} &J S\left(p_{\mathrm{data}} \| p_{\mathrm{g}}\right)=\frac{1}{2} K L\left(0 \| \frac{0+p_{\mathrm{g}}}{2}\right)+ \\ &\frac{1}{2} K L\left(p_{\mathrm{g}} \| \frac{0+p_{\mathrm{g}}}{2}\right)=0+\sum_{x \sim X} p_{\mathrm{g}}(x) \times \mathrm{lb} 2 \end{aligned}$
由于 $\sum_{x \sim X} p_{\mathrm{g}}(x) = 1$ , 我们有 $JS(p_{data}||p_g ) = lb 2$ . 同理，对于情况4，我们有 $JS(p_{data}||p_g ) = lb 2$ . 说明此时生成器没有得到任何梯度信息，梯度消失。

(2）两个分布有重叠部分。文献18指出，两个分布在高维空间是很难相交的，即使相交，其相交部分其实是高维空间中的一个低维流形，其测度为0，这说明两个分布相交部分可以忽略不计，此时JS散度的值和（1）讨论的一致，换言之， $p_{data}$ 和 $p_g$ 两个分布只要它们没有重叠部分或者重叠部分可以忽略，那么JS散度就固定是常数 $l b 2$ ，这对于梯度下降法而言意味着梯度为0。文献19证明了若存在一个判别器D无限接近于最优解时，即 $\sim D∗ || < ε$ ，有如下关系：
$\| \nabla_{\theta} E_{z \sim p(z)}\left[\operatorname{lb}\left(1-D\left(g_{\theta}(z)\right)\right) \|_{2}<M \frac{\varepsilon}{1-\varepsilon}\right.$
这说明了当判别器训练得越好，无限接近于最优判别器 $D_G^∗$ 时，生成器的梯度消失越严重，即是

$\lim _{\left\|D-D^{*}\right\| \rightarrow 0} \nabla_{\theta} E_{z \sim p(z)}\left[\operatorname{lb}\left(1-D\left(g_{\theta}(z)\right)\right)\right]=0$

模式崩溃问题分析

GAN模式崩溃（mode collapse）是指GAN生成不了多样性的样本，而是生成了与真实样本相同的样本，该缺陷在数据增强领域中是致命的。为解决GAN梯度消失问题，Goodfellow等人重新定义了损失函数，如下式。
$\begin{aligned} &\min _{G} \max _{D} V(D, G)= \\ &E_{x \sim p_{\text {dut }}(x)}\left[\lfloor\mathrm{lb} D(x)]+E_{z \sim p_{z}(z)}[-\operatorname{lb}(D(x))]\right. \end{aligned}$
在最优判别器 $D_G^*(x)$ 下，优化生成器的目标函数如下式
$\min (C(G))=K L\left(p_{g} \| p_{\text {data }}\right)-2 J S\left(p_{\text {data }} \| p_{g}\right)$
要优化该目标函数，则要求同时满足下面俩式。
$\begin{aligned} &\min \left(K L\left(p_{g} \| p_{\text {data }}\right)\right) \end{aligned}$

$\begin{aligned} &\max \left(2 J S\left(p_{\text {data }} \| p_{g}\right)\right) \end{aligned}$

上面第一个式子要求 $p_g$ 和 $p_{data}$ 的概率分布一样，而上面第二个式子则要求 $p_g$ 和 $p_{data}$ 的概率分布不一样，这样会产生矛盾，使得生成器无法稳定训练。放宽约束，只要求满足上面第一个式子同样不可行。如下：

(1)当 $p_g (x) → 0$ 且 $p_{data} (x) → 1$ , $p_{g}(x) \operatorname{lb} \frac{p_{g}(x)}{p_{\text {data }}(x)} \rightarrow0$ ,此时 $KL(p_g ||p_{data} )$ 趋近于0. 该情况说明了生成器生成了与真实样本相似的样本。

(2) 当 $p_g (x) → 1$ 且 $p_{data} (x) → 0$ , $p_{g}(x) \operatorname{lb} \frac{p_{g}(x)}{p_{\text {data }}(x)} \rightarrow \infty$ . 此时 $KL(p_g ||p_{data} )$ 趋近于正无穷。该情况说明生成器生成了不真实的样本。