PaperNotes(7)-GANs模式坍塌、训练不稳定 相关论文

1.训练不稳定问题相关文章

综述-分析-归纳

1.1 DCGAN

2016-ICLR
abstract,related work --没说稳定性的问题
DCGAN的出发点:CNN结构+GANs模型学习,质量优良的图像表征。其后将生成器或者和判别器作为监督学习的特征提取器
3. aproach and model architecture
也有很多人尝试将CNN与GAN模型结合,但是没有成功。

作者认为在GANs模型提出后关于GAN模型学习过程的理解和可视化的工作缺乏,并且GANs模型中生成器和判别器的大多使用多层感知机的全连接结构。(不稳定性基本上没有分析),他们将卷积神经网络引入到GANs模型中,利用大量的实验寻找合适的的结构致力于解决GANs模型训练不稳定问题。

DC-GAN利用卷积提取图像的层次视觉特征,其有利于提升判别网络能力。DC-GAN通过调整卷积神经网络的结构以提高样本的质量和收敛速度,这些调整包括:取消所有Pooling 层;在生成网络和判别网络中均使用Batch-Normalization[13]操作;去掉全连接层,使网络变为全卷积网络;生成网络中使用ReLU[14]作为激活函数,最后一层使用Tanh[15]作为激活函数,判别网络使用LeakyReLU[16]作为激活函数等。图2-4为DC-GAN生成网络的结构图。图2-5为DC-GAN使用大规模场景数据集LSUN[17] 房间子集训练的模型生成的房间场景图像。

1.2Big-GAN

文章出发点:高清,真实图像生成。
通过实验探索了:不同的训练批次大小(BatchSize) 、每层卷积通道(Channel)数、Shared、Hierarchical Latent Space对GANs 模型性能的影响。文章表明:对于BatchSize,简单的增大BatchSize 可以使模型性能获得较好的提升,但会使训练稳定性下降;对于Channel数,一定范围内增加卷积通道数,对提升模型性能有益处;但是超过一定的范围之后,性能不升反降。

然后:分析训练崩溃现象发生时网络权重参数有啥表现
判别网络权重矩阵的前三个奇异值毛刺多,在发生崩溃时有一个突跃向上。生成网络权重矩阵奇异值曲线平滑,但是崩溃时有一个突跃向上。

反制措施:
针对G:限制奇异值大小
针对D:D网络的梯度惩罚

1.3WGAN 、WGAN-GP、SN-WGAN

(推荐)令人拍案叫绝Wasserstein GAN—https://zhuanlan.zhihu.com/p/25071913

TOWARDS PRINCIPLED METHODS FOR TRAINING
GENERATIVE ADVERSARIAL NETWORKS
WGAN前作:分析了GANs模型目标函数的缺陷:会导致训不动和训练不稳定。

WGAN:正式提出WGAN,但是Lipschitz约束采用截断判别器参数的方式实现,不够优雅。

WGAN-GP:Lipschitz约束使用判别器梯度惩罚的方式实现。
SN-WGAN:Lipschitz约束使用判别器参数每一层W频谱范数限制为1的方式实现。

1.4其他工作

f-gan将所有GAN模型统一到f-divergence 下,是一个比较优雅的工作。不过没有致力于解决训练不稳定问题吧。
Improved techniques for training gans:包含了很多促进GAN稳定训练的启发式技巧。

2.模式坍塌问题相关文章

从纳什均衡点来说模式坍塌问题:说有两种方案来解决模式坍塌:

https://zhuanlan.zhihu.com/p/86683281:修改网络结构MAD-GAN。

https://zhuanlan.zhihu.com/p/84072188:提高网络能力Unrolled GAN。

有个现象:当判别器在训练样本附近更新参数时,其梯度值非常大

http://blog.itpub.net/69946223/viewspace-2658454/:在训练样本附近增加梯度惩罚DRAGAN(与上面两篇文章是同一个作者)

2.1 MAD-GAN

MAD-GAN-2017:单个生成器会产生模式坍塌现象,多个生成器结合起来可以保证样本的多样性,但是简单添加多个彼此鼓励的生成器并没有很大的意义,这些可能最终都会归并到相同状态。希望让多个生成器彼此联系,不同的生成器尽量产生不相似的样本。MAD-GAN中包括K个初始值不同的生成器和一个判别器,判别器通过交叉熵损失使得每个生成器只生成某一类模式的样本。生成器使用的一个自定的相似性项惩罚生成器,以达到各个生成器产生不同的样本的目的。治标不治本,没有提高单个生成器的能力。

疑惑:多个生成器最后如何确定输出?随机?还是要利用判别器?

(提供bib文件。)也希望大家贡献一些。

多生成器的结构也有很多种,文章中使用多生成器来提高生成数据的多样性。

relate work :InfoGAN [5], ModeGAN[4],UnrolledGAN[17],Coupled GAN,

2.2 Unrolled GAN

https://arxiv.org/abs/1611.02163

Unrolled GAN-2017:由于生成器缺乏先见之明,生成器每次更新参数时只是考虑当前的判别器下能够获得的最优解,并不能判断当前的最优解从长运啊来看是否时最优解。目标是:提高生成器的先见之明。具体做法当前的生成器在更新时不仅能够考虑当前生成器的状态,还会考虑K次更新后判别器的状态。

(还能够稳定训练过程。)一个缺点是提高了计算的复杂度。

(按照unroll 的说法,质量越好,其实越容易发生模式坍塌现象)

(公式中两项的差别就是:第K次更新这个事实。)

2.3 DRAGAN

DRAGAN:(实验)发现一个有趣的现象,判别器具在训练样本附近更新参数时,梯度值非常大,考虑在训练样本附近增加一个梯度惩罚。具体就是通过训练样本扰动然后,计算梯度,再惩罚。注意与WGAN-GP的区别,WGAN-GP在具体实现时是在真假样本之间增加惩罚。

与博文中分析的结论殊途同归的感觉:
https://zhuanlan.zhihu.com/p/56545779
基于能量视角,我们可以得到“对真样本进行以 0 为中心的梯度惩罚”比较好,因为这意味着(整体上)要把真样本放在极小值点处。

2.4 D2GAN

D2GAN–2017: 再添加一个判别器,亏你们想的出来。

https://blog.csdn.net/weixin_33958585/article/details/90329616-说的不够直接。

生成模型最大似然方法对应于求解 模型分布 与 数据分布 之间的KL散度。
GANs对应的是求 解数据分布 与 模型分布 之间的KL散度。

正反向KL散度

D K L ( p m o d e l ∣ ∣ p d a t a ) D_{KL}(p_{model}||p_{data}) DKL(pmodel∣∣pdata):会凭空产生一些潜在的不希望的样本。

D K L ( p d a t a ∣ ∣ p m o d e l ) D_{KL}(p_{data}||p_{model}) DKL(pdata∣∣pmodel):Pmodel集中在Pdata的单一模式,而忽略了其他模式,产生模式坍塌现象。

拥有两个判别器,判别器和原始GANs模型中的判别器功能类似,用于鉴别一个样本是真样本的概率,而判别器2用于鉴别样本是来自生成分布而不是真实分布,通过结合KL和反KL散度生成一个统一的目标函数,从而利用了两种散度的互补统计特性,缓解了模式坍塌问题。

2.5 InfoGAN

https://zhuanlan.zhihu.com/p/55945164
https://blog.csdn.net/u011699990/article/details/71599067

InfoGAN:通过引入c来约束输出,使得C的维度于输出的语义特征相对应。为了使的x与c之间关联密切,所以我们需要最大化互信息的值。据此对原始GAN模型的值函数做了一点修改,相当于加了一个互信息的正则化项。核心是如何实现互信息的计算(通过一个辅助分布)
简单理解,生成的数据能够依据条件改变的话,那么条件多了,生成的数据自然也就多了

2.6 Deligan

认为一般的GAN模型都需要大量的训练数据,才能够使生成器捕获完整的数据模态。对于样本数量有限的复杂数据集,DeliGAN借助变分推断中的思想, 将输入隐空间重参数成混合高斯,这些混合高斯分布是样本高概率出现的隐空间,混合高斯分布的参数随GANs的参数一同训练。通过实验证明了在受限数据集上生成器生成丰富多样的数据,缓解模式坍塌问题。

主要针对点:受限数据集

2.7 EBGAN

http://www.mamicode.com/info-detail-2221093.html

EBGAN:将D视作一个能量函数,能量越小,输入越真。AE中的重构误差作为能量函数。
和解决多样性没有直接关系,最主要的还是训练的稳定性

We show that this form of EBGAN exhibits more stable behavior than regular GANs during training.

2.8 Maximum Entropy Generators for Energy-Based Models

Rithesh Kumar–在基于能量的生成式模型中,最大化生成数据的熵,能够提高数据的多样性。从能量的角度来诠释了GAN模型。通过非参数互信息最大化技术间接实现最大化生成数据的熵。(比较抽象难理解)

苏剑林的博客:https://zhuanlan.zhihu.com/p/56545779
表示GAN不需要带动量的优化方法:要的是最近的最小值,而不是更小的最小值。带动量可能会损失多样性。

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值