GAN相关网络用什么归一化方法：BatchNorm？Weight Norm？Layer Norm？

wang-jue

已于 2022-09-13 09:50:17 修改

阅读量1.9k

点赞数 2

分类专栏： CV 文章标签：生成对抗网络网络计算机视觉

于 2022-09-11 23:21:26 首次发布

本文链接：https://blog.csdn.net/qq_36561737/article/details/126802376

版权

CV 专栏收录该内容

6 篇文章 1 订阅

订阅专栏

一、问题背景

问题是这样的，在做一个图像生成的任务中（基于GAN），出现了局部噪声的问题，表现为下图所示，在和几位老师傅交流之后，推测是因为BN的问题。关于BatchNorm、LayerNorm、InstanceNorm、WeightNorm等介绍移步大佬博客。
图像生成出现局部噪声
那么怎么解决呢？参考StyleGAN2中，使用EqualConv2d替换掉Conv+BN的方式解决（经过实验，使用Layer Norm也能避免此问题）。EqualConv2d其实就是在初始化参数的时候，对卷积参数进行一次缩放处理。公式如下：
$w'_{ijk}=w''_{ijk} / \sqrt{c_{in}*k*k}$
其中 $c_{in}$ 表示输入通道数，k表示卷积核尺度，代码在这里；在对卷积参数进行缩放之外，通过对卷积的处理使得输出恢复到单位标准差：
$w_{ijk}=w'_{ijk}/\sqrt{\sum_{i,k}(w'_{ijk})^2+\epsilon}$
其实这一段比较好理解，带入到卷积运算公式之后，再求方差可以把卷积参数带来的方差变化给约掉，也就是卷积参数不会导致特征的整体方差发生变化，代码在这里。

那么问题来了，到底什么时候用BN？什么时候用Weight Norm？什么是时候用Layer Norm呢？

二、先从StyleGAN说起

2.1 StyleGAN中的问题

StyleGAN用于生成图像的，通过输入不同的噪声，控制生成的图像具备不同特征，比如性别、头发、肤色等。虽然StyleGAN的效果很好，但是在生成图像时会存在『水滴状』噪声问题，如下图所示。
在这里插入图片描述

2.2 StyleGAN2

StyleGAN2提到StyleGAN中采用AdaIN进行归一化，导致出现这个问题的，将AdaIN去掉之后这个问题就没有了，然后又提出第一章介绍的权重解调来实现特征的归一化。AdaIN最开始提出用于风格迁移任务中，代码在这里。计算公式如下：
$AdaIN(x,y)=\sigma(y)\frac{x-\mu(x)}{\sigma(x)}+\mu(y)$
其中x表示源图像，y表示风格，也就是AdaIN可以将x图像迁移到y中风格中。用直白的语言说就是统一不同图像风格的变化，而BN、IN、LN是从不同纬度对特征分布进行统一。

三、不同网络及任务使用的归一化方法

下面对一些经典的算法进行统计，主要是图像、GAN相关算法，也涉及少量的文本、语音相关的内容。

算法	任务	网络	结构	归一化方式	卷积	备注
StyleGAN	图像生成	StyleGAN	上采样	AdaIN	普通卷积
StyleGAN2	图像生成	StyleGAN2	上采样	Weight Demodulate	普通卷积
AdaIN	图像风格迁移	VGG	UNet	AdaIN	普通卷积
IN	图像风格迁移	VGG	UNet	AdaIN	普通卷积
MobileFSGAN	换脸	MobileFSGAN	UNet	G:BN;D:spectral_norm	普通卷积
单阶段-多阶段检测相关	目标检测、分类	ResNet等	下采样	BN	普通卷积
SegNet	语义分割	VGG	UNet	BN	普通卷积
FCN	语义分割	FCN	下采样	-	普通卷积
DenseNet	图像分类、检测	DenseNet	下采样	BN	普通卷积	轻量化
MobileNet	图像分类、检测	MobileNet	下采样	无	DepthWiseConv	轻量化
ShuffleNet	图像分类、检测	ShuffleNet	下采样	GN	Group Conv	轻量化
Weight Normalization	图像分类、生成	-	-	WN	-
Transformer	文本	Transformer	-	LN	-
deepspeech	语音	RNN	-	BN	普通卷积

四、分析各种归一化应用情况

4.1 BN

最常见的归一化方法，在目标检测、图像分类任务中使用的骨干网络中（如ResNet相关，ResNet、ResNext、ResNeSt等）。对于GAN相关的网络用的比较少，但是也有一些算法会用。
缺点：计算mean、var时受mini-batch影响，容易引入噪声，尤其是在GAN相关的算法中，可能会出现水滴状的问题。
注意：在图像分类、检测、分割等任务中，往往使用预训练模型，所以即使batchsize=1也不会导致太差的结果。