【飞桨】学习论文复现，【Paddle Paddle】复现LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS

最新推荐文章于 2023-06-06 20:52:23 发布

WantTo_Be

最新推荐文章于 2023-06-06 20:52:23 发布

阅读量290

点赞数

分类专栏：机器学习文章标签： paddlepaddle 深度学习

本文链接：https://blog.csdn.net/qq_37887653/article/details/107841645

版权

机器学习专栏收录该内容

2 篇文章 1 订阅

订阅专栏

LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS

大规模GAN训练，实现高保真自然图像合成

Author:Andrew Brock Heriot-Watt University, Jeff Donahue DeepMind, Karen Simonyan DeepMind,ICLR 2019

[论文复现课程链接](https://aistudio.baidu.com/aistudio/education/group/info/1340)

论文地址

1、任务描述

文章的主要工作是学习现有数据集中的图像特征生成新图像。近年来，生成图像领域出现不少成果，其中最前沿的是GAN，它能直接从数据中学习生成高保真、多样化的图像。虽然GAN的训练是动态的，而且各方面的设置（从优化参数到模型架构）等方面都很敏感，但大量研究证实，这种方法可以在各种环境中稳定训练。

2、相关介绍

GAN（Generative Adversarial Networks，生成对抗网络）是一种深度学习模型，是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中（至少）两个模块：生成模型（Generative Model）和判别模型（Discriminative Model）的互相博弈学习产生相当好的输出。

尽管进展颇丰，当前在条件ImageNet建模上的当前最佳结果仍然仅达到52.5的 IS,而真实数据有233 的 IS。

（IS：inception score，用来衡量GAN网络的两个指标：生成图片的质量和多样性）

这项研究中，作者成功将GAN生成图像和真实图像之间的保真度和多样性间隔大幅降低。

3、论文方法

高分辨率能够带来更为欸真实的生成图像，在这样的思想指导下，本论文结合了GAN的各种新技术，分析训练难的原因，最后在此基础上提出了自己的模型。
本文展示了GAN可以从训练规模中获益，并且能够在参数数量很大和八倍批大小于之前最佳结果的条件下，仍然能以2到4倍的速度进行训练。
作者引入了两种简单的生成架构变化，提高了可扩展性，并修改了正则化方案以提升条件化，这可论证地提高了性能。

这篇文章将原有的GAN模型，用八倍于原有的batch size大小并且将隐藏层的变量数量扩充到原有模型的4倍以后进行训练获得了很好的图片生成效果。与此同时，扩充了变量数量和batch size大小之后，模型中出现了不稳定的现象，采用现有的比较有效的稳定训练GAN的方法，但是文中也发现并列出了这样的方式的确会稳定GAN的训练，但是同时会牺牲生成图片的质量。

（a）bigGAN的G网络典型结构布局；（b）bigGAN的G网络中的剩余块（resblock up）；（c）bigGAN的G网络中的剩余块（resblock down）

表1-4行表明按8的倍数增加批大小可以将当前最佳的 IS 提高46% 。之后研究者增加每个层50%的宽度（通道数量），这大致在生成器和鉴别器中都翻倍了参数数量，进一步导致了21%的 IS 提升，将深度翻倍在ImageNet模型上并不能得到相同的优化效应，反而会降低性能。

截断技巧

生成器随机噪声输入一般使用正态分布或者均匀分布的随机数。这篇文章采用截断技术，对正态分布的随机数进行截断处理，实验发现这种方法的效果最好。对此的直观解释是，如果网络的随机噪声输入的随机数变动范围越大，生成的样本在标准模板上的变动就越大，因此样本的多样性就越强，但真实性可能会降低。首先使用截断的正态分布N（0，1）随机数产生噪声向量Z，具体做法是如果随机数超出了一定的范围则重新进行采样，使得其落在这个区间里。这种做法称为截断技巧，这样可以提高单个样本的质量，但代价是降低样本的多样性。

生成器的不稳定性

对于GAN的稳定性，之前已经有一些探索，从分析的角度。本文着重对小规模时稳定，大规模时不稳定的问题进行分析。实验中发现，权重矩阵的前三个奇异值 $\sigma 0,\sigma 1 ,\sigma 2$ 蕴含的信息最丰富，在训练中G的大部分层的谱范数都是正常的，但有一些时病态的，这些谱范数随着巡演的进行不断增长，最后爆炸，导致训练坍塌。如下图所示：