从DCGAN到SELF-MOD：GAN的模型架构发展一览

最新推荐文章于 2024-09-02 22:26:28 发布

PaperWeekly

最新推荐文章于 2024-09-02 22:26:28 发布

阅读量1.8k

点赞数 4

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/89465334

版权

本文回顾了GAN的模型架构发展历程，重点讲述了从DCGAN到SELF-MOD的改进。DCGAN通过特定的架构设计极大地稳定了GAN训练，成为一段时间内的标准架构。然而，DCGAN存在棋盘效应和非线性能力不足的问题，ResNet因其避免了这些问题而受到青睐。SELF-MOD通过自我调节机制，提高了GAN训练的稳定性和效果。文章指出，虽然有BigGAN和StyleGAN等新模型，但它们在架构上的改进不如SELF-MOD显著。

摘要由CSDN通过智能技术生成

640

作者丨苏剑林

单位丨广州火焰信息科技有限公司

研究方向丨NLP，神经网络

个人主页丨kexue.fm

事实上，O-GAN 的发现，已经达到了我对 GAN 的理想追求，使得我可以很惬意地跳出 GAN 的大坑了。所以现在我会试图探索更多更广的研究方向，比如 NLP 中还没做过的任务，又比如图神经网络，又或者其他有趣的东西。

不过，在此之前，我想把之前的 GAN 的学习结果都记录下来。

这篇文章中，我们来梳理一下 GAN 的架构发展情况，当然主要的是生成器的发展，判别器一直以来的变动都不大。还有，本文介绍的是 GAN 在图像方面的模型架构发展，跟 NLP 的 SeqGAN 没什么关系。

此外，关于 GAN 的基本科普，本文就不再赘述了。

话在前面

当然，从广义上来讲，图像领域的分类模型的任何进展，也算是判别器的进展（因为都是分类器，相关的技术都可能用到判别器中），而图像分类模型本质上从 ResNet 之后就没有质的变化，这也说明 ResNet 结构对判别器基本上是最优选择了。

但是生成器不一样，虽然从 DCGAN 之后 GAN 的生成器也形成了一些相对标准的架构设计，但远说不上定型，也说不上最优。直到最近也有不少工作在做生成器的新设计，比如 SAGAN 就是将 Self Attention 引入到了生成器（以及判别器）中，而大名鼎鼎的 StyleGAN 就是在 PGGAN 的基础上引入了一个风格迁移形式的生成器。

因此，很多工作都表明，GAN 的生成器的结果还有一定的探索空间，好的生成器架构能加速 GAN 的收敛，或者提升 GAN 的效果。

DCGAN

要谈到 GAN 架构发展史，肯定不得不说到 DCGAN 的，它在 GAN 史上称得上是一个标志性事件。

基本背景

众所周知，GAN 起源于 Ian Goodfellow 的文章 Generative Adversarial Networks [1]，但早期的 GAN 仅仅局限在 MNIST 这样的简单数据集中。这是因为 GAN 刚出来，虽然引起了一波人的兴趣，但依然还处于试错阶段，包括模型架构、稳定性、收敛性等问题都依然在探索中。而 DCGAN 的出现，为解决这一系列问题奠定了坚实的基础。

DCGAN 出自文章 Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks [2]。要说它做了什么事情，其实也简单：它提出了一种生成器和判别器的架构，这个架构能极大地稳定 GAN 的训练，以至于它在相当长的一段时间内都成为了 GAN 的标准架构。

说起来简单，但事实上能做到这个事情很不容易，因为直观上“合理”的架构有很多，从各种组合中筛选出近乎最优的一种，显然是需要经过相当多的实验的。

而正因为 DCGAN 几乎奠定了 GAN 的标准架构，所以有了 DCGAN 之后，GAN 的研究者们可以把更多的精力放到更多样的任务之上，不再过多纠结于模型架构和稳定性上面，从而迎来了 GAN 的蓬勃发展。

架构描述

好了，说了这么多，我们回到架构本身的讨论之上。DCGAN 所提出的模型架构大致如下：

1. 生成器和判别器均不采用池化层，而采用（带步长的）的卷积层；其中判别器采用普通卷积（Conv2D），而生成器采用反卷积（DeConv2D）；

2. 在生成器和判别器上均使用 Batch Normalization；

3. 在生成器除输出层外的所有层上使用 RelU 激活函数，而输出层使用 Tanh 激活函数；

4. 在判别器的所有层上使用 LeakyReLU 激活函数；

5. 卷积层之后不使用全连接层；

6. 判别器的最后一个卷积层之后也不用 Global Pooling，而是直接 Flatten。

其实现在看来，这还是一种比较简单的结构，体现了大道至简的美感，进一步证明了好的必然是简洁的。

DCGAN 的结构示意图如下：