PaperNotes(7)-GANs模式坍塌、训练不稳定相关论文

小陈同学-陈百万

已于 2023-10-25 21:14:53 修改

阅读量1.2k

点赞数

分类专栏： PaperNotes 文章标签：深度学习 cnn 神经网络

于 2020-11-05 16:29:58 首次发布

本文链接：https://blog.csdn.net/sinat_40624829/article/details/109484678

版权

PaperNotes 专栏收录该内容

22 篇文章 4 订阅

订阅专栏

GANs-模式坍塌-训练不稳定

1.训练不稳定问题相关文章
2.模式坍塌问题相关文章

1.训练不稳定问题相关文章

综述-分析-归纳

1.1 DCGAN

2016-ICLR
abstract，related work --没说稳定性的问题
DCGAN的出发点：CNN结构+GANs模型学习，质量优良的图像表征。其后将生成器或者和判别器作为监督学习的特征提取器
3. aproach and model architecture
也有很多人尝试将CNN与GAN模型结合，但是没有成功。

作者认为在GANs模型提出后关于GAN模型学习过程的理解和可视化的工作缺乏，并且GANs模型中生成器和判别器的大多使用多层感知机的全连接结构。（不稳定性基本上没有分析），他们将卷积神经网络引入到GANs模型中，利用大量的实验寻找合适的的结构致力于解决GANs模型训练不稳定问题。

DC-GAN利用卷积提取图像的层次视觉特征，其有利于提升判别网络能力。DC-GAN通过调整卷积神经网络的结构以提高样本的质量和收敛速度，这些调整包括：取消所有Pooling 层；在生成网络和判别网络中均使用Batch-Normalization[13]操作；去掉全连接层，使网络变为全卷积网络；生成网络中使用ReLU[14]作为激活函数，最后一层使用Tanh[15]作为激活函数，判别网络使用LeakyReLU[16]作为激活函数等。图2-4为DC-GAN生成网络的结构图。图2-5为DC-GAN使用大规模场景数据集LSUN[17] 房间子集训练的模型生成的房间场景图像。

1.2Big-GAN

文章出发点：高清，真实图像生成。
通过实验探索了：不同的训练批次大小(BatchSize) 、每层卷积通道(Channel)数、Shared、Hierarchical Latent Space对GANs 模型性能的影响。文章表明：对于BatchSize，简单的增大BatchSize 可以使模型性能获得较好的提升，但会使训练稳定性下降；对于Channel数，一定范围内增加卷积通道数，对提升模型性能有益处；但是超过一定的范围之后，性能不升反降。

然后：分析训练崩溃现象发生时网络权重参数有啥表现
判别网络权重矩阵的前三个奇异值毛刺多，在发生崩溃时有一个突跃向上。生成网络权重矩阵奇异值曲线平滑，但是崩溃时有一个突跃向上。

反制措施：
针对G：限制奇异值大小
针对D：D网络的梯度惩罚

1.3WGAN 、WGAN-GP、SN-WGAN

（推荐）令人拍案叫绝Wasserstein GAN—https://zhuanlan.zhihu.com/p/25071913

TOWARDS PRINCIPLED METHODS FOR TRAINING
GENERATIVE ADVERSARIAL NETWORKS
WGAN前作：分析了GANs模型目标函数的缺陷：会导致训不动和训练不稳定。

WGAN：正式提出WGAN，但是Lipschitz约束采用截断判别器参数的方式实现，不够优雅。

WGAN-GP：Lipschitz约束使用判别器梯度惩罚的方式实现。
SN-WGAN：Lipschitz约束使用判别器参数每一层W频谱范数限制为1的方式实现。

1.4其他工作

f-gan将所有GAN模型统一到f-divergence 下，是一个比较优雅的工作。不过没有致力于解决训练不稳定问题吧。
Improved techniques for training gans：包含了很多促进GAN稳定训练的启发式技巧。

2.模式坍塌问题相关文章

从纳什均衡点来说模式坍塌问题：说有两种方案来解决模式坍塌：

https://zhuanlan.zhihu.com/p/86683281：修改网络结构MAD-GAN。

https://zhuanlan.zhihu.com/p/84072188：提高网络能力Unrolled GAN。

有个现象：当判别器在训练样本附近更新参数时，其梯度值非常大

http://blog.itpub.net/69946223/viewspace-2658454/：在训练样本附近增加梯度惩罚DRAGAN（与上面两篇文章是同一个作者）

2.1 MAD-GAN

MAD-GAN-2017：单个生成器会产生模式坍塌现象，多个生成器结合起来可以保证样本的多样性，但是简单添加多个彼此鼓励的生成器并没有很大的意义，这些可能最终都会归并到相同状态。希望让多个生成器彼此联系，不同的生成器尽量产生不相似的样本。MAD-GAN中包括K个初始值不同的生成器和一个判别器，判别器通过交叉熵损失使得每个生成器只生成某一类模式的样本。生成器使用的一个自定的相似性项惩罚生成器，以达到各个生成器产生不同的样本的目的。治标不治本，没有提高单个生成器的能力。

疑惑：多个生成器最后如何确定输出？随机？还是要利用判别器？

（提供bib文件。）也希望大家贡献一些。

多生成器的结构也有很多种，文章中使用多生成器来提高生成数据的多样性。

relate work ：InfoGAN [5]， ModeGAN[4],UnrolledGAN[17],Coupled GAN,

2.2 Unrolled GAN

https://arxiv.org/abs/1611.02163

Unrolled GAN-2017：由于生成器缺乏先见之明，生成器每次更新参数时只是考虑当前的判别器下能够获得的最优解，并不能判断当前的最优解从长运啊来看是否时最优解。目标是：提高生成器的先见之明。具体做法当前的生成器在更新时不仅能够考虑当前生成器的状态，还会考虑K次更新后判别器的状态。

（还能够稳定训练过程。）一个缺点是提高了计算的复杂度。

（按照unroll 的说法，质量越好，其实越容易发生模式坍塌现象）

（公式中两项的差别就是：第K次更新这个事实。）

2.3 DRAGAN

DRAGAN：(实验)发现一个有趣的现象，判别器具在训练样本附近更新参数时，梯度值非常大，考虑在训练样本附近增加一个梯度惩罚。具体就是通过训练样本扰动然后，计算梯度，再惩罚。注意与WGAN-GP的区别，WGAN-GP在具体实现时是在真假样本之间增加惩罚。

与博文中分析的结论殊途同归的感觉：
https://zhuanlan.zhihu.com/p/56545779
基于能量视角，我们可以得到“对真样本进行以 0 为中心的梯度惩罚”比较好，因为这意味着（整体上）要把真样本放在极小值点处。

2.4 D2GAN

D2GAN–2017： 再添加一个判别器，亏你们想的出来。

https://blog.csdn.net/weixin_33958585/article/details/90329616-说的不够直接。

生成模型最大似然方法对应于求解模型分布与数据分布之间的KL散度。
GANs对应的是求解数据分布与模型分布之间的KL散度。

正反向KL散度

$D_{KL}(p_{model}||p_{data})$ :会凭空产生一些潜在的不希望的样本。

$D_{KL}(p_{data}||p_{model})$ :Pmodel集中在Pdata的单一模式，而忽略了其他模式，产生模式坍塌现象。

拥有两个判别器，判别器和原始GANs模型中的判别器功能类似，用于鉴别一个样本是真样本的概率，而判别器2用于鉴别样本是来自生成分布而不是真实分布，通过结合KL和反KL散度生成一个统一的目标函数，从而利用了两种散度的互补统计特性，缓解了模式坍塌问题。

2.5 InfoGAN

https://zhuanlan.zhihu.com/p/55945164
https://blog.csdn.net/u011699990/article/details/71599067

InfoGAN：通过引入c来约束输出，使得C的维度于输出的语义特征相对应。为了使的x与c之间关联密切，所以我们需要最大化互信息的值。据此对原始GAN模型的值函数做了一点修改，相当于加了一个互信息的正则化项。核心是如何实现互信息的计算（通过一个辅助分布）
简单理解，生成的数据能够依据条件改变的话，那么条件多了，生成的数据自然也就多了

2.6 Deligan

认为一般的GAN模型都需要大量的训练数据，才能够使生成器捕获完整的数据模态。对于样本数量有限的复杂数据集，DeliGAN借助变分推断中的思想，将输入隐空间重参数成混合高斯，这些混合高斯分布是样本高概率出现的隐空间，混合高斯分布的参数随GANs的参数一同训练。通过实验证明了在受限数据集上生成器生成丰富多样的数据，缓解模式坍塌问题。

主要针对点：受限数据集

2.7 EBGAN

http://www.mamicode.com/info-detail-2221093.html

EBGAN：将D视作一个能量函数，能量越小，输入越真。AE中的重构误差作为能量函数。
和解决多样性没有直接关系，最主要的还是训练的稳定性

We show that this form of EBGAN exhibits more stable behavior than regular GANs during training.

2.8 Maximum Entropy Generators for Energy-Based Models

Rithesh Kumar–在基于能量的生成式模型中，最大化生成数据的熵，能够提高数据的多样性。从能量的角度来诠释了GAN模型。通过非参数互信息最大化技术间接实现最大化生成数据的熵。（比较抽象难理解）

苏剑林的博客：https://zhuanlan.zhihu.com/p/56545779
表示GAN不需要带动量的优化方法：要的是最近的最小值，而不是更小的最小值。带动量可能会损失多样性。

小陈同学-陈百万

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
PaperNotes(7)-GANs模式坍塌、训练不稳定相关论文

A distributional perspective on reinforcement learningabstract1.Introduction2.setting2.1. Bellman's Equations3.The Distributional Bellman Operators3.1 Distributional Equations3.2. The Wasserstein Metric3.3. Policy Evaluation3.3.1. CONTRACTION IN dp3.3.2. C
复制链接

扫一扫