论文阅读笔记3——Large Scale GAN Training for High Fidelity Natural Image Synthesis

本文链接：https://blog.csdn.net/sinat_17581847/article/details/90241233

论文标题：Large Scale GAN Training for High Fidelity Natural Image Synthesis

原文链接：https://openreview.net/pdf?id=B1xsqj09Fm

贡献：

证明了GANs可以从扩大规模中获得巨大的收益，使用了比现有技术多2到4倍的参数和8倍的批大小。引入两个简单的、通用的体系结构更改，提高了规模，并修改了正则化方法以改善条件，明显提高性能。
模型能够服从“截断技巧（truncation trick）”，这是一种简单的抽样技术，允许显式地、细致地控制样本多样性和保真度之间的平衡。
分析了大规模GANs特有的不稳定性，本文证明了将新技术和现有技术结合起来可以减少这些不稳定性，但是达到完全的训练稳定性只能以性能的巨大代价来实现。

背景（对现有文献的总结）：

修改GAN训练过程。一条线是通过改进目标函数，另一条线是通过梯度惩罚限制D或通过归一化，都是为了D始终能够为G提供梯度。
谱归一化（Spectral Normalization）[1]。通过对D的第一个奇异值进行估计值对其参数进行归一化，从而实现对D的Lipschitz连续性。在G上采用谱归一化能够提高稳定性，减少每次迭代中D的训练次数。
结构的选择。SA-GAN[2]增加了自注意力块（self-attention block）来提高G和D对全局结构的建模能力。ProGAN通过训练单一模型经过一系列增加分辨率的操作，在单一类别中训练高分辨率GAN。
条件GAN。在噪声向量中连接一个独立热的类别向量，目标函数修改为希望尽量生成条件样本以最大化辅助分类器（auxiliary classifier）[3]预测的相关类别概率。

技术：

基本模型：

采用SA-GAN的框架，目标函数采用hinge loss，以类别条件批归一化（class-conditional BatchNorm）的方式在G 中加入类别信息，对D进行投影，并对G 采用谱归一化。

仅对基本模型增加批大小8倍，Inception Score提高了46%，这是因为每个batch覆盖了更多的模式，为网络提供了更好的梯度。此外，模型在更少的迭代中达到更好的结果，但是变得不稳定且提前出现模式崩塌。再对每层增加宽度，即通道数，同时增加了参数量。这增加了模型关联复杂数据集的能力，进一步提高了Inception Score。然而增加深度并没有提高结果。

由于在G的条件批归一化层（conditional BatchNorm layers）采用类别嵌入（class embeddings）会使用大量weights，因此作者提出了共享嵌入（shared embedding），将类别条件线性投影到每个层的gains和biases。这减少了计算量以及存储消耗，提高了计算速度。另外，从噪声向量z到G的多个层间添加直接跳过连接（direct skip connections skip-z），这允许使用隐式空间（latent space）来直接影响不同的分辨率上的特征。在BigGAN中，将z分给每个分辨率块，在BigGAN-deep中，将整个z连接到条件向量，不分块。

截断技巧（Truncation Trick）：

对z~N(0,I) 进行采样时，从一个截断范围内取，即落在该范围外的值被重新采样到该范围内。通过重新采样大于选择阈值的值，截断z向量的值,这使得单个样本质量的提高，代价是减少总体样本的多样性。这种方式可以精细地选择样本质量和保真度之间的权衡，当截断接近0时，多样性消失，见图1。对于更大的模型，截断技巧会使结果饱和，作者采用了修改的正交归一化（Orthogonal Regularization）[4]使得G光滑：

其中，W表示权值矩阵，β 是超参数，1表示所有元素都是1的矩阵。

图1 增加截断的效果，从左到右阈值设置为2,1,0.5,0.04

关于稳定性的结论：

稳定性不是单独地来源于G或D，而是在对抗训练过程中它们的相互作用。虽然不良的条件可以用来识别不稳定性，但采用合理的条件对于训练时有必要的，然而却不能防止最终的训练崩塌。通过强约束D可以使训练稳定但是会影响模型性能。在目前的技术下，通过较松的条件约束并且允许在之后的阶段发生模式崩塌能够达到更好的结果。

参考文献：

[1] Spectral Normalization for Generative Adversarial Networks.

链接：https://arxiv.org/abs/1802.05957

[2] Self-attention Generative Adversarial Networks.

链接：https://arxiv.org/abs/1805.08318

[3] Conditional Image Synthesis With Auxiliary Classifier GANs..

链接：https://arxiv.org/abs/1610.09585

[4] Neural Photo Editing with Introspective Adversarial Networks.

链接：https://arxiv.org/abs/1609.07093