（四十二）论文阅读 | 归一化之BGN

最新推荐文章于 2022-08-08 23:50:45 发布

zhangts20

最新推荐文章于 2022-08-08 23:50:45 发布

阅读量870

点赞数

分类专栏：论文阅读文章标签：计算机视觉人工智能

本文链接：https://blog.csdn.net/Skies_/article/details/110880260

版权

论文阅读专栏收录该内容

54 篇文章 33 订阅

订阅专栏

简介

在这里插入图片描述

图1：论文原文

归一化在深度神经网络中起到重要作用，主要表现在防止梯度爆炸和梯度弥散，同时还能加速模型的收敛和缓解过拟合效应。其中最经典的归一化方法是批量归一化（ ${\rm Batch\ Normalization,\ BN}$ ），后续出现了对其的改进如实例归一化（ ${\rm Instance\ Normalization,\ IN}$ ）、层归一化（ ${\rm Layer\ Normalization,\ LN}$ ）、组归一化（ ${\rm Group\ Normalization,\ GN}$ ）和位置归一化（ ${\rm Positional\ Normalization,\ PN}$ ）等。本文介绍的论文提出一种新的归一化方法批量组归一化（ ${\rm Batch\ Group\ Normalization,\ BGN}$ ），效果优于以前的归一化方法。实验结果为在 ${\rm ImageNet}$ 数据集上的分类效果比 ${\rm BN}$ 高出近 $10$ 个点。论文原文

0. Abstract

深度卷积神经网络的训练难以收敛且耗时，而归一化是一种有效的解决办法。在以往的归一化方法中， ${\rm BN}$ 在大中批次的模型训练中表现良好且适用于多种视觉任务，然而其在小批次上的表现欠佳。作者发现 ${\rm BN}$ 在极大的批次下存在饱和现象，如每个线程 $128$ 幅图像；同时小批次下也存在效果变差的情况。因此，在不改变其他参数和训练环境的情况下， ${\rm GBN}$ 的提出用于缓解在极大和小批次下归一化效果变差的问题。使用 ${\rm GN}$ 中的组技术以及利用参数 ${\rm G}$ 控制用于计算的特征实例数，对于不同大小的批次既不产生噪音也不会发生混淆。实验证明 ${\rm GBN}$ 的效果好于 ${\rm BN}$ 、 ${\rm LN}$ 、 ${\rm GN}$ 和 ${\rm PN}$ 等方法，同时也适用于大多数的视觉任务，包括图像分类、神经架构搜索、对抗学习、小样本学习和无监督域自适应等。

论文贡献：（一）提出新的归一化方法 ${\rm BGN}$ ；（二） ${\rm BGN}$ 不引入额外的学习参数；（三） ${\rm BGN}$ 在多项任务上均取得 ${\rm SOTA}$ 。

1. Introduction

自 ${\rm AlexNet}$ 被提出以来，深度卷积神经网络在众多视觉任务如图像分类、目标检测和图像分割等中大受欢迎。 ${\rm DCNNs}$ 通常由卷积层、归一化层和激活层等组成，而归一化层对于提高模型性能和加速训练至关重要。

${\rm BN}$ 是早期使用较多的归一化方法，它通过计算特征图的批次、高度和宽度的均值和方差而对其归一化，然后使用再缩放和再平移重新调整特征图以保留 ${\rm DCNNs}$ 的表达能力。基于 ${\rm BN}$ 的工作又相继出现许多其他的归一化方法，如 ${\rm LN}$ 提出在 ${\rm RNN}$ 中沿通道、宽度和高度来归一化特征图； ${\rm WN}$ 提出对权重向量进行参数化，以监督图像识别、生成建模和深度强化学习； ${\rm DN}$ 是包含 ${\rm BN}$ 和 ${\rm LN}$ 的特殊情况，是一种被用于图像分类、语言建模和超分辨率等中的归一化方法； ${\rm IN}$ 基于特征图的高度和宽度进行归一化，使用于快速风格化中； ${\rm NP}$ 从网络层的分布中独立地估计数据来进行归一化，而非从数据中统计数据特征； ${\rm GN}$ 将特征图的通道划分成组，然后基于每个组内的通道、高度和宽度来进行归一化； ${\rm PN}$ 提出沿通道维度来得到统计特征，常用于生成网络。

在这些归一化方法中， ${\rm BN}$ 在大中批次的情况下能够很好地发挥作用，但其在小批次上的效果会减弱。此外，论文实验证明了 ${\rm BN}$ 在极大批次下会存在饱和现象。 ${\rm GN}$ 在各种批次下都能够取得较好的效果，但其在大中批次下的效果不如 ${\rm BN}$ 。而上述提到的其它归一化方法仅适用于特定的任务。

在论文中， ${\rm BGN}$ 不需要学习其他参数。通常上，小批次的训练结果要好于单批次和全批次，因为单批次训练可能引入噪声而全批次训练难以选择具有代表性的梯度。基于此，作者认为在归一化计算中特征实例的数目也应该进行相应的调整。

${\rm BGN}$ 的提出用于缓解 ${\rm BN}$ 和 ${\rm GN}$ 中的退化和减弱现象，它将通道、高度和宽度合并成一个维度，并将新合成的维度分解成特征组数，最后计算整个小型批次和特征组的统计信息。超参数 ${\rm G}$ 用于控制划分的特征层数，并对不同的批次提供合适的统计信息。

2. Related Work

Why normalization works? ${\rm BN}$ 的有效性归因于内部协变量偏移，其中每一层的输入分布都会发生变化。因此，较低的学习率和有效的参数初始化对于确保在不进行归一化的 ${\rm DCNN}$ 中进行良好的训练至关重要。例如， ${\rm Santurkar}$ 提到 ${\rm BN}$ 对于内部协变量偏移的作用有限，而是平稳了优化以得到稳定的梯度和更加快速的训练； ${\rm Bjorck}$ 提到更大的学习率是 ${\rm BN}$ 能够更快收敛的主要原因； ${\rm Arora}$ 提到 ${\rm BN}$ 在减小学习率中的作用； ${\rm Luo}$ 提到 ${\rm BN}$ 和正则化具有相同的特征； ${\rm OLS}$ 在有无 ${\rm BN}$ 的情况下对梯度下降作了比较； ${\rm Fan}$ 提到通过模糊神经网络， ${\rm BN}$ 能够估计由广义汉明距离引起的偏差； ${\rm Yang}$ 提到 ${\rm BN}$ 引起了无残差结构的 ${\rm DCNNs}$ 中的梯度爆炸； ${\rm Li}$ 解释了 ${\rm BN}$ 和 ${\rm dropout}$ 之间的不兼容性； ${\rm Zhang}$ 提出 ${\rm BN}$ 并不是稳定训练、更大的学习率、加速收敛和改善正则化的唯一途径，还可以通过更好的初始化实现； ${\rm Hou}$ 提到归一化层在 ${\rm LSTM}$ 中能够引入更加稳定的梯度。上述对 ${\rm BN}$ 的解释并不统一。

Improvements ${\rm Centered\ WN}$ 添加一个可学习参数来调整 ${\rm WN}$ 的权重因子； ${\rm Recurrent\ BN}$ 提出在 ${\rm RNNs}$ 中不仅将 ${\rm BN}$ 用于输入层到隐藏层之间，也将其用于隐藏层到隐藏层之间； ${\rm Batch\ Renormalization}$ 提出减少 ${\rm BN}$ 对小批次的依赖； ${\rm Cho}$ 提出将 ${\rm Riemannian}$ 在权重向量空间与 ${\rm BN}$ 结合，提高了 ${\rm BN}$ 在各 ${\rm DCNN}$ 中的性能； ${\rm EvalNorm}$ 提出在评估过程中估计校正后的归一化统计数据，以解决 ${\rm BN}$ 性能下降的问题； ${\rm Moving\ Average\ BN}$ 提出使用反向传播中的批统计特征；基于 ${\rm LN}$ ， ${\rm Adaptive\ Normalization}$ 提出使用新的变换函数来修改偏置和增益； ${\rm Root\ Mean\ Square\ LN}$ 提出在 ${\rm LN}$ 中丢弃再中心化而保持再缩放。

研究者也正研究非线性归一化技术。例如， ${\rm ZCA}$ 代替了 ${\rm BN}$ 中的中心化和缩放操作，得到 ${\rm Decorrelated\ BN}$ ； ${\rm Iterative\ Normalization}$ 提出使用牛顿迭代法以避免 ${\rm Decorrelated\ BN}$ 中的特征分解； ${\rm Spectral\ Normalization}$ 提出在 ${\rm GANs}$ 和对抗训练中归一化权重的频谱范数。

学习归一化也得到相关研究，可以将之前不同的归一化方法结合起来以获得更好的效果。例如， ${\rm BIN}$ 基于可训练参数结合 ${\rm BN}$ 和 ${\rm IN}$ 的输出特征图，用于风格迁移任务； ${\rm SN}$ 提出在 ${\rm BN}$ 、 ${\rm IN}$ 和 ${\rm LN}$ 中将均值和方差替换成可学习参数； ${\rm Spare\ SN}$ 使用 ${\rm SparseMax}$ 在 ${\rm SN}$ 中引入可学习参数；在实例级 ${\rm Meta\ Normalization}$ 中，前向传播的特征和反向传播的梯度用于学习归一化参数。

Others 归一化可以作为直接实现任务的方法。例如， ${\rm Huang}$ 将内容特征的均值和方差与样式特征的均值和方差对齐，可以实现实时风格转换；将统计特征从源域转换到目标域可以实现域自适应性；将 ${\rm BN}$ 结合可学习任务可以完成新的任务；其他还有如交叉域任务、全局协方差池化网络、多任务学习、 ${\rm UDA}$ 、医疗领域和场景文本检测等的归一化方法； ${\rm KN}$ 提出结合 ${\rm DCNN}$ 中的多个层；针对低精度计算中的数值稳定性， ${\rm Hoffer}$ 提出使用 $1$ 范数和无穷范数代替 $2$ 范数。

3. Methodology

对于深度为 ${\rm L}$ 的深度卷积神经网络，对于特征图 $\mathcal F^l,l\in[1,\rm L]$ ，通常用四维向量 $({\rm N,C,H,W})$ 表示，具体含义分别为批次大小、通道数、高和宽。简单地，令 $n\in[1, {\rm N}],c\in[1, {\rm C}],h\in[1, {\rm H}],w\in[1, {\rm W}]$ 为相应的批次、通道、宽和高。则第 $l + 1$ 层特征图的计算可由以下公式计算得到： $\mathcal F^{l+1}=\psi(\theta(\phi(\mathcal F^l,w^l,b^l),\gamma^l,\beta^l))\tag{1}$

其中， $w^l$ 和 $b^l$ 是卷积层中可学习的权重和偏置项参数， $\gamma^l$ 和 $\beta^l$ 是归一化层中可学习的缩放和平移参数， $\psi(\cdot)$ 是激活函数， $\theta(\cdot)$ 是归一化函数， $\phi(\cdot)$ 是卷积函数。

归一化操作大致包含四个步骤： $(1)$ 将特征图划分为特征组； $(2)$ 计算每个特征组的均值和方差； $(3)$ 基于计算结果归一化每个特征组； $(4)$ 再次对特征图进行缩放和平移，以恢复 ${\rm DCNN}$ 所学习到的特征。如在 ${\rm BN}$ 中，基于通道将原特征图划分，均值 $\mu_c$ 和方差 $\delta_c^2$ 的计算公式如下： $\mu_c=\frac{1}{\rm N\times H\times W}\sum_{n=1}^{\rm N}\sum_{h=1}^{\rm H}\sum_{w=1}^{\rm W}f_{n,c,h,w}\tag{2}$

$\delta_c^2=\frac{1}{\rm N\times H\times W}\sum_{n=1}^{\rm N}\sum_{h=1}^{\rm H}\sum_{w=1}^{\rm W}(f_{n,c,h,w}-\mu_c)^2\tag{3}$

然后通过以下公式归一化特征图： $\hat f_{n,c,h,w}=\frac{f_{n,c,h,w}-\mu_c}{\sqrt{\delta_c^2+\epsilon}}\tag{4}$

为了不丢失模型所学习到的特征，额外引入两个参数： $f'_{n,c,h,w}=\gamma_c\hat f_{n,c,h,w}+\beta_c\tag{5}$

但是， ${\rm BN}$ 在小批次中表现较差。为此， ${\rm GN}$ 的提出用于缓解该问题，其计算公式如下： $\mu_{n,g}=\frac{1}{\rm N\times H\times W}\sum_{m=(g-1)\cdot \rm M+1}^{\rm g\cdot\rm M}\sum_{h=1}^{\rm H}\sum_{w=1}^{\rm W}\tag{6}$

$\delta_{n,g}^2=\frac{1}{\rm N\times H\times W}\sum_{m=(g-1)\cdot \rm M+1}^{\rm g\cdot\rm M}\sum_{h=1}^{\rm H}\sum_{w=1}^{\rm W}(f_{n,c,h,w}-\mu_c)^2\tag{7}$

其中， $g\in[1,\rm G]$ ， ${\rm G}$ 是一个表示组数的超参数， ${\rm M=C//G}$ 表示整除。 ${\rm GN}$ 在各个批次大小下的表现均较好，但其在大中批次的表现不如 ${\rm BN}$ 。

作者猜想 ${\rm BN}$ 在小批次中表现较差的主要原因是噪声， ${\rm BGN}$ 基于 ${\rm GN}$ 中的分组计数来控制用于计算的特征数。具体地，首先将通道、高度和宽度维度合并成一个新的维度得到 $\mathcal F_{\rm N\times D}^{\rm l}$ ，其中 ${\rm D=C\times H\times W}$ 。均值和方差的计算公式如下： $\mu_g=\frac{1}{\rm N\times S}\sum_{n=1}^{\rm N}\sum_{d=(g-1)\cdot \rm S+1}^{\rm g\cdot S}f_{n,d}\tag{8}$

$\delta_g^2=\frac{1}{\rm N\times S}\sum_{n=1}^{\rm N}\sum_{d=(g-1)\cdot \rm S+1}^{\rm g\cdot S}(f_{n,d}-\mu_g)^2\tag{9}$

其中， ${\rm G}$ 表示合成的新维度被划分的组数， ${\rm S=M/G}$ 表示每个特征组中的实例数。当训练时所用批次较小时，较小的 ${\rm G}$ 用于控制将所有实例用于计算；当训练时所用批次较大时，较大的 ${\rm G}$ 用于控制将较少实例用于计算。其他参数的含义与 ${\rm BN}$ 相同。

Relation to General Batch Group Normalization (GBGN) 相比于 ${\rm GBGN}$ ， ${\rm BGN}$ 的贡献如下：

首先提出BN在极端大的批次下存在饱和现象；
首先提出BN在极端大和小批次存在退化的原因是噪声；
提出在通道、高和宽中使用组技术；
实验证明了 ${\rm GBN}$ 在图像分类、 ${\rm NAS}$ 、对抗学习、 ${\rm FSL}$ 和 ${\rm UDA}$ 等任务上的有效性。

4. Experiments

在这里插入图片描述

图2：批次大小和组数的对比实验

上图是 $\rm ResNet$ - $50$ 在 ${\rm ImageNet}$ 数据集上的分类结果对比。纵向对比是使用极端大和极端小批次，横向对比是超参数 ${\rm G}$ 的设置。实验结果也验证了 ${\rm BGN}$ 在大批次上设置较大 ${\rm G}$ 值和在小批次上设置较小 ${\rm G}$ 值假设的有效性。