《Group Normalization》译文

最新推荐文章于 2024-11-28 12:56:05 发布

不上钩的小肥鱼

最新推荐文章于 2024-11-28 12:56:05 发布

阅读量1.3k

点赞数 2

分类专栏：深度学习文章标签：深度学习神经网络 GN 归一化

深度学习专栏收录该内容

1 篇文章

订阅专栏

原文链接：https://arxiv.org/pdf/1803.08494.pdf

摘要：批归一化（BN）是深度学习发展中一项里程碑式的技术，它可以使各种网络进行训练。然而，沿着批量维度进行归一化会带来一些问题：由于批处理统计估计不准确，当批量变小时，BN的误差会迅速增加。这限制了BN用于训练大型模型和将特征迁移到包括检测、分割和视频等计算机视觉任务中，这些任务由于受内存消耗限制需要使用小批量。在本文中，我们提出了组归一化（GN）作为BN的简单替代方法。GN将通道分成组，在组内计算归一化的均值和方差。GN的计算独立于批大小，并且在大范围的批大小下精度稳定。在lmageNet中训练ResNet-50时，GN在批量大小为2时的误差比BN低10.6%；当使用典型的批大小时，GN与BN性能相当，并且优于其他归一化变体。另外，GN可以很自然的从预训练过渡到微调。在COCO训练集上的目标检测和分割任务以及在Kinetics上的视频分类任务中，GN可胜过其基于BN的对应物，这表明GN可以在各种任务中有效替代强大的BN。在现代图书馆中，GN可以通过几行代码轻松实现。

1. 引言

批归一化（Batch Norm或BN）已被确立为深度学习中非常有效的组成部分，在很大程度上帮助推动了计算机视觉前沿。BN通过在（小）批量内计算的均值和方差对特征进行归一化。许多实践已经证明了BN可以简化优化并使非常深的网络收敛。批量统计的随机不确定性也可以作为一个可以有利于泛化的正则化因子。 BN是许多最先进的计算机视觉算法的基础。

尽管BN取得了巨大成功，但BN仍存在缺点，这是由沿批量维度进行标准化造成的。尤其是这要求BN以足够大的批量大小工作。小批量导致批量统计的估计不准确，并且减少BN的批量大小会显著增加模型误差。结果，许多最近的模型用极大的批量进行训练，这是非常消耗内存的。严重依赖BN训练模型的有效性反过来禁止了人们探索受内存限制的更高容量的模型。

计算机视觉任务对批量大小的限制要求更高，包括检测，分割，视频识别以及其他基于它们的高级系统。例如，Fast/er R-CNN和Mask R-CNN框架由于高分辨率使用了批量大小为1或2的图像，其中BN通过转换为线性层而“冻结”；在使用3D卷积的视频分类中，空间-时间特征的存在引入了时间长度和批量大小之间的平衡。BN的使用通常要求这些系统在模型设计和批量大小之间妥协。

本文将组归一化（GN）作为BN的简单替代。我们注意到许多经典特征如SIFT和HOG也是分组特征并且包含分组归一化。例如，HOG矢量是几个空间单元的结果，其中每个单元用标准化的方向直方图表示。同理，我们建议将GN作为一个层，将通道分成组并对每组中的特征进行标准化。GN不利用批量维度，它的计算与批量大小无关。

GN在各种批量大小上表现得非常稳定。对于批量大小为2的样本，GN在ImageNet上的的ResNet-50中误差率比BN对应的低10.6％。对于一般的批量大小，GN性能与BN相当（差距约为0.5％），并且优于其他归一化变体。此外，尽管批量大小可能会发生变化，但GN可以自然地从预训练转移到微调。对于Mask R-CNN上的COCO目标检测和分割，以及用于Kinetics视频分类的3D卷积网络，GN显示了与BN对应物相比改进的结果。GN在ImageNet，COCO和Kinetics中的有效性表明，GN是BN的竞争替代品，在这些任务中占主导地位。

有些同样避免沿批量维度进行归一化的方法，如Layer Normalization (LN)和Instance Normalization (IN)。这些方法对于训练序列模型（RNN/LSTM）或生成模型（GANs）是有效的。但正如我们将通过实验证明的那样，LN和IN在视觉识别方面的成功有限，而GN为此提供了更好的结果。相反，GN可用于代替LN和IN，因此适用于序列或生成模型。这超出了本文的重点，但它暗示了未来的研究。

2. 相关工作

归一化：众所周知，对输入数据进行归一化可以使训练更快。为了规范隐藏的特征，一些初始化方法是基于特征分布的强假设而得出的，这些假设在训练发展时可能变得无效。

深度网络中的归一化层在BN发展之前已被广泛使用。局部响应规范化（LRN）是AlexNet及其它一些模型的一个组成部分。与最近的方法不同，LRN计算每个像素的小邻域中的统计数据。

批归一化沿批量维度执行更多的全局归一化（并且重要的是，它建议对所有层执行此操作）。但“batch”的概念并不总是存在，或者可能会不时发生变化。例如，分批归一化在推理时是不合理的，因此平均值和方差是从训练集预先计算的，通常是通过计算平均值；因此，测试时没有进行归一化。当目标数据分布发生变化时，预先计算的统计数据也可能会发生变化。这些问题导致训练、转移和测试时不统一。另外，如前所述，减小批量大小会对估计的批次统计产生巨大影响。

几种避免利用批量维度归一化的方法已经被提出。Layer Normalization (LN)沿着通道维度运行，Instance Normalization (IN)执行类似BN的计算，但仅针对每个样本（如图1所示）。权重标准化Weight Normalization (WN)建议对滤波器权重进行归一化，而不是对特征进行操作。这些方法不会受到批量维度引起问题的影响，但是它们无法在许多视觉识别任务中接近BN的准确性。我们在剩下的章节中提供了与这些方法的比较。

图1

解决小批量问题：Ioffe 提出了批量重整化（BR），它可以减轻BN涉及小批量的问题。BR引入了两个额外的参数，这些参数将BN的估计平均值和方差限制在一定范围内，当批量小时减少它们的漂移。在小批量制度中，BR比BN具有更好的准确性。但BR也是依赖于批次的，当批量减小时，其准确度仍会降低。

还有一些别的试图避免使用小批量的尝试。[43]中的目标检测器执行同步BN，其均值和方差是跨多个GPU计算的。但是，这种方法不能解决小批量的问题；相反，它通过使用与BN需求成比例的多个GPU将算法问题迁移到了工程和硬件需求。此外，同步BN计算避免使用异步求解器（ASGD），这是工业中广泛使用的大规模训练的实用解决方案。这些问题可能会限制使用同步BN的范围。

我们的归一化方法不是解决批量统计计算，而是本质上避免了这种计算。

分组（Group-wise）计算：AlexNet已经提出了用于将模型分发到两个GPU中的组卷积。最近，群体作为模型设计维度的概念得到了更广泛的研究。ResNeXt的工作研究了深度、宽度和群体之间的权衡，并且它表明，在类似的计算成本下，更多的群体可以提高准确性。MobileNet和Xception利用Channel-wise（也称为“depth-wise”）卷积，这些卷积是具有相当于频道号的组号的组卷积。ShuffleNet提出了一种通道混洗操作，它可以置换分组特征的轴。这些方法都涉及将通道维度划分为组。尽管与这些方法有关，但GN不需要组卷积。GN是一个通用层，正如我们在标准ResNets中评估的那样。

3. 组归一化

视觉表征的通道并不完全独立。SIFT，HOG和GIST的经典特征是按组设计的分组表示，其中每组通道由某种直方图构成。这些特征通常通过每个直方图或每个方向上的分组归一化来处理。诸如VLAD和Fisher Vector (FV)之类的高级特征也是分组特征，其中一组可以被认为是相对于聚类计算的子矢量。

类似地，没有必要将深度神经网络特征视为非结构化向量。例如，对于网络的conv1（第一卷积层），期望滤波器及其水平翻转在自然图像上表现出类似的滤波器响应分布是合理的。如果conv1碰巧大约学习这对滤波器，或者如果通过设计将水平翻转（或其他变换）设置到架构中，则可以将这些滤波器的相应通道一起归一化。

更高等级的层更抽象，它们的行为不那么直观。然而，除了取向（SIFT，HOG或[11,8]）之外，还有许多因素可能导致分组，例如频率，形状，照明，纹理。它们的系数可以是相互依赖的。事实上，神经科学中一个广为接受的计算模型是在整个细胞反应，“各种感受野中心（覆盖视野）和各种时空频率调谐”；这不仅可以在初级视觉皮层中发生，也可以在“整个视觉系统”中发生。在这些工作的推动下，我们为深度神经网络提出了新的通用分组归一化。

3.1. 公式

我们首先描述特征标准化的一般公式，然后在这个公式中提出GN。一系列特征规范化方法，包括BN，LN，IN和GN，执行以下计算：

这里x是由层计算的特征，i是索引。在2D图像的情况下,i=(iN,iC,iH,iW)是以（N,C,H,W）顺序索引特征的4D矢量，其中N是批处理轴，C是通道轴，H和W是空间高度和宽度轴。（1）中的μ和σ是由下式计算的平均值和标准差（std）:

用ε作为一个小常数。 Si是计算mean和std的像素集合，m是该集合的大小。许多类型的特征归一化方法主要在于如何定义集合Si（图1），如下所述。

在Batch Norm中，Si定义为：

其中iC（和kC）表示沿C轴的i（和k）的子索引。这意味着共享相同通道索引的像素被一起归一化，即对于每个信道，BN沿（N，H，W）轴计算μ和σ。在Layer Norm中，Si定义为：

意味着LN计算每个样本沿（C，H，W）轴的μ和σ。在Instance Norm中，Si定义为：

意味着IN计算每个样本和每个通道沿（H，W）轴的μ和σ。BN，LN和IN之间的关系如图1所示。

如[26]中所述，BN，LN和IN的所有方法都学习了每通道线性变换，以补偿表示能力的可能丢失：

其中γ和β是可训练的尺度缩放和移位（在所有情况下由iC索引，我们为简化符号省略了）。

Group Norm：形式上，Group Norm层计算Si中的μ和σ定义为：

这里G是组的数量，它是预定义的超参数（默认情况下G=32）。C/G是每组的通道数。“⌊kC/C/G⌋=⌊iC/C/G⌋”表示索引i和k在同一组通道中，假设每组通道沿C轴按顺序存储。GN沿（H，W）轴和沿着一组C/G通道计算μ和σ。GN的计算在图1（最右边）中示出，其是2组（G=2）的简单情况，每组具有3个通道。

在等式（7）中给出Si，GN层由等式（1）（2）和（6）定义。具体地，同一组中的像素通过相同的μ和σ一起归一化。GN还学习每个通道的γ和β。

与先前工作的关系：LN，IN和GN都独立于批处理轴进行计算。GN的两个极端情况相当于LN和IN（图1）。

与Layer Normalization的关系。如果我们将组号设置为G=1，则GN变为LN。LN假设层中的所有通道都做出“类似的贡献”。与[3]中研究的全连通层的情况不同，如[3]中所讨论的，这种假设对于卷积的存在可能不太有效。GN比LN受限制更少，因为假设每组通道（而不是所有通道）都受共享均值和方差的影响；该模型仍然具有为每个群体学习不同分布的灵活性。这导致GN相对于LN的表征能力提高，如实验中较低的训练和验证误差所示。

与Instance Normalization的关系。如果我们将组号设置为G=C（即每组一个通道），则GN变为IN。但是IN只能依靠空间维度来计算均值和方差，并且错过了利用信道依赖的机会。

3.2. 实现

GN可以通过PyTorch和TensorFlow中的几行代码轻松实现，其中支持自动区分。文中显示了基于TensorFlow的代码。实际上，我们只需要指定如何沿着归一化方法定义的适当的轴计算均值和方差（“moments”）。

4. 实验（图表略）

4.1. ImageNet中的图像分类

我们在ImageNet分类数据集中进行了1000个类的实验。我们使用ResNet模型训练约1.28M训练图像并评估50000个验证图像。

实施细节：作为标准实践[20,17]，我们使用8个GPU来训练所有模型，并且在每个GPU内计算BN的批量均值和方差。我们使用[19]的方法来初始化所有模型的所有卷积。我们使用1来初始化所有γ参数，除了每个残余块的最后归一化层，其中我们在[16]之后将γ初始化为0（使得残余块的初始状态是同一性）。对于所权重层，我们使用0.0001的权重衰减，包括γ和β（以下[17]，但与[20,16]不同）。我们为所有模型训练100个时期，并在30,60和90个时期将学习率降低10倍。在训练期间，我们采用[17]所实现的[58]的数据增加。我们评估验证集中224×224像素的中心作物的前1个分类错误。为了减少随机变化，我们显示了最后5个时期的中位误差率[16]。其他实现细节如下[17]。

我们的基线是使用BN训练的ResNet[20]。为了与LN，IN和GN进行比较，我们将BN替换为特定的变量。我们对所有模型使用相同的超参数。我们默认为GN设置G=32。

特征归一化方法的比较：我们首先尝试使用常规批量大小的32张图像（每个GPU）[26,20]。BN在这种制度下成功运作，因此这是一个强有力的基线来比较。图4显示了误差曲线，表1显示了最终结果。图4显示所有这些归一化方法都能够收敛。与BN相比，LN的降幅小1.7％。这是一个令人鼓舞的结果，因为它表明卷积网络的所有通道（如LN所做的）正常化是相当好的。IN也使模型收敛，但比BN差4.8％。在BN运行良好的这种情况下，GN能够接近BN的准确度，在验证集中降低0.5％。实际上，图4（左）显示GN的训练误差低于BN，表明GN对于简化优化是有效的。GN的稍高验证误差意味着GN失去了BN的一些正则化能力。这是可以理解的，因为BN的均值和方差计算引入了随机批量采样引起的不确定性，这有助于正则化[26]。GN（和LN / IN）中缺少这种不确定性。但GN可能与合适的正则化器相结合将改善结果。这可能是未来的研究课题。

小批量：尽管在某些情况下，由于批次具有最大的随机性，但当批量变小且不确定性变大时，其误差会增加。我们在图1，图5和表2中显示了这一点。我们评估每个GPU的32,16,8,4,2个图像的批量大小。在所有情况下，BN均值和方差在每个GPU内计算并且不同步。所有型号均采用8个GPU进行培训。在这组实验中，我们采用线性学习速率缩放规则[31,4,16]来适应批量大小的变化——我们使用的学习率为0.1[20]，批量大小为32，并且0.1N/32对于批量大小为N.如果总批量大小发生变化（通过更改GPU的数量）但是每个GPU批量大小不会改变，则此线性缩放规则适用于BN[16]。对于所有情况，我们保持相同数量的训练时期（图5，x轴）。所有其他超参数都保持不变。

图5（左）显示小批量大小时BN的误差会大大增加。 GN的行为更稳定，对批量大小不敏感。实际上，图5（右）显示GN具有非常相似的曲线（受随机变化影响），适用于从32到2的各种批量大小。在批量大小为2的情况下，GN的错误率比错误率低10.6％。其BN对应物（24.1％对34.7％）。这些结果表明批量均值和方差估计可能过于随机且不准确，尤其是当它们在4或2个图像上计算时。然而，如果从1个图像计算统计量，则该随机性消失，在这种情况下，BN在训练时变得类似于IN。我们看到IN比BN具有更好的结果（28.4％），批量为2（34.7％）。表2中GN的强大结果证明了GN的强度。它允许移除由BN施加的批量大小约束，这可以提供相当多的存储器（例如，16倍或更多）。这将有可能训练更高容量的模型，否则会受到内存限制的瓶颈。我们希望这将为建筑设计创造新的机会。

与批次Renorm（BR）的比较：BR[25]引入了两个额外的参数（[25]中的r和d），它们约束了BN的估计均值和方差。它们的值由rmax和dmax控制。为了将BR应用于ResNet-50，我们仔细选择了这些超参数，并发现rmax=1.5和dmax=0.5最适合ResNet-50。批量大小为4，用BR训练的ResNet-50有误差率260.3％。这比波导的27.3％，但比GN的24.2％还要高2.1％

分组划分：到目前为止，所有呈现的GN模型都使用G=32的组编号进行训练。接下来，我们评估不同的分组方式。对于给定的固定组编号，GN对我们研究的所有G值都表现得相当好（表3，上图）。在G=1的极端情况下，GN等于LN，并且其错误率高于所研究的G>1的所有情况。我们还评估了固定每组的通道数（表3，下图）。请注意，由于图层可以具有不同的通道编号，因此在此设置中，组编号G可以跨层更改。在每组1个通道的极端情况下，GN等同于IN。即使每组使用少至2个通道，GN的误差也明显低于IN（25.6％对28.4％）。此结果显示执行规范化时分组通道的效果。

更深的模型：我们还将ResNet-101上的GN与BN进行了比较[20]。批量大小为32，我们的ResNet-101的BN基线有22.0％的验证错误，GN对应的22.4％，略差0.4％。批量大小为2时，GN ResNet-101的错误率为23.0％。考虑到非常小的批量，这仍然是非常稳定的结果，并且比BN对应的31.9％好8.9％。

VGG模型的结果和分析。为了研究GN/BN与没有标准化相比，我们认为VGG-16[56]可以在没有标准化层的情况下进行健康训练。我们在每个卷积层之后立即应用BN或GN。图6显示了conv5_3（最后一个卷积层）的特征分布的演变。GN和BN在性质上相似，但与不使用标准化的变量显着不同；对于所有其他卷积层也观察到这种现象。这种比较表明，执行标准化对于控制特征的分布至关重要。

对于VGG-16，GN比BN好0.4％（图6右）。这可能意味着VGG-16比BN的正则化效应更少，而GN（导致较低的训练误差）在这种情况下优于BN。

4.2. COCO中的目标检测和分割

接下来，我们评估微调模型以转移到对象检测和分割。这些计算机视觉任务通常受益于更高分辨率的输入，因此在通常的实践中批量大小往往很小（1或2图像/ GPU [12,47,18,36]）。结果，BN变成线性层y=γσ（x-μ）+β，其中μ和σ是从预训练模型预先计算并冻结的[20]。我们将其表示为BN*，实际上在微调期间不执行归一化。我们还尝试了一种修改BN（进行标准化而不是冻结）的变量，发现它的效果很差（减少约6AP，批量大小为2），所以我们忽略了这个变量。

我们在Mask R-CNN基线[18]上进行了实验，在公众可用的Detectron代码库[13]中实现。我们使用具有相同超参数的端到端变量[13]。我们使用ImageNet预先训练的相应模型在微调期间用GN代替BN*。在微调期间，我们使用γ和β参数的权重衰减为0，当γ和β正在调整时，这对于良好的检测结果很重要。我们使用批量大小的1个图像/GPU和8个GPU进行调整。

这些模型在COCO train2017中进行训练，并在COCO val2017组（a.k.a minival）中进行评估。我们报告了平均精度（AP），AP50和AP75的标准COCO指标，用于边界框检测（APbbox）和实例分割（APmask）。

C4 backbone的结果：表4显示了使用conv4骨架（“C4”[18]）在Mask R-CNN上GN与BN*的比较。这个C4变量使用ResNet的conv4层来提取特征图，而ResNet的conv5层是感兴趣区域（RoI）的分类，用于分类和回归。由于它们是从预先训练的模型继承的，因此骨架和头部都涉及归一化层。

在此基线上，GN通过1.1盒AP和0.8掩码AP改善了BN*。我们注意到预训练的GN模型比ImageNet中的BN略差（24.1％vs.23.6％），但GN仍然优于BN*进行微调。BN*在预训练和微调（冻结）之间产生不一致，这可能解释了退化。

我们还尝试了LN变量，发现它比GN差了1.9箱AP，比BN*差了0.8。虽然LN也与批量大小无关，但其代表性能力弱于GN。

FPN backbone的结果：接下来，我们使用特征金字塔网络（FPN）骨干[35]比较掩模R-CNN上的GN和BN*，这是COCO当前最先进的框架。与C4变量不同，FPN利用所有预先训练的层来构建金字塔，并将随机初始化的层作为头部附加。在[35]中，箱头由两个隐藏的完全连接层（2fc）组成。我们发现用4 conv1 fc替换2fc箱头（类似于[48]）可以更好地利用GN。结果比较见表5。

作为基准，BN*使用4conv1fc头具有38.6盒AP，与使用相同预训练模型（38.5AP）的2fc对应物相同。通过将GN添加到盒头的所有卷积层（但仍然使用BN*骨干），我们将盒子AP增加0.9到39.5（第2行，表5）。这种消融表明GN检测的很大一部分来自头部的标准化（这也是由C4变量完成的）。相反，将BN应用于箱头（每个图像具有512个RoI）并不能提供令人满意的结果，并且更差约9AP——在检测中，批量的RoI从同一图像中采样并且它们的分布不是i.i.d.，并且非i.i.d. 分配也是降低BN批量统计估计的一个问题[25]。GN不会遇到这个问题。

接下来，我们用基于GN的对应物替换FPN骨干，即在微调期间使用GN预训练模型（第3行，表5）。将GN应用于骨干单独贡献0.5 AP增益（从39.5到40.0），这表明GN在传输特征时有帮助。

表6显示了与基于BN*的标准Detectron基线[13]相比，GN（应用于骨干，盒头和掩模头）的完整结果。使用与[13]相同的超参数，GN比BN*增加了一个健康的边际。此外，我们发现GN没有完全使用[13]中的默认时间表进行训练，因此我们也尝试将迭代次数从180k增加到270k（BN*不受长时间训练的影响）。我们的最终ResNet-50 GN模型（“长”，表6）是2.2点盒AP和1.6点掩盖AP比其BN*变量更好。

从头开始训练Mask R-CNN：GN允许我们从头开始轻松调查训练对象探测器（无需任何预训练）。我们在表7中显示了结果，其中GN模型经过270k迭代的训练。据我们所知，我们的数字（41.0盒AP和36.4掩模AP）是迄今为止COCO报告中最好的从头开始; 它们甚至可以与表6中的ImageNet预训练结果竞争。作为参考，使用同步BN[43]，并发工作[34]使用R50（表7）实现了34.5箱AP的从头开始的结果，使用专门的骨干是36.3。

4.3. Kinetics中的视频分类

最后，我们评估了Kinetics数据集中的视频分类[30]。许多视频分类模型[60,6]将特征扩展到三维空间-时间尺度。这对内存要求很高，并且对批量大小和模型设计施加了限制。

我们尝试使用Inflated 3D（I3D）卷积网络[6]。我们使用[62]中描述的ResNet-50 I3D基线。这些模型是从ImageNet预先培训的。对于BN和GN，我们将归一化从over（H，W）扩展到over（T，H，W），其中T是时间轴。我们在400级Kinetics训练集中训练并在验证集中进行评估。我们报告了前1和前5的分类准确度，使用标准10剪辑测试，平均定期采样的10个剪辑的softmax分数。

我们研究了两种不同的时间长度：32帧和64帧输入剪辑。从原始视频中定期采样帧间隔为2的32帧剪辑，并连续采样64帧剪辑。该模型在时空中是完全卷积的，因此64帧变量消耗大约2倍的内存。我们研究了32帧变量的8或4个剪辑/GPU的批量大小，以及由于内存限制而针对64帧变量的4个剪辑/GPU。

32帧输入的结果。表8（第1栏，第2列）显示了使用32帧剪辑的动力学视频分类准确度。对于批量大小为8，GN比BN略差，前1精度为0.3％，前5精度为0.1％。这表明当BN运行良好时，GN与BN竞争。对于较小批量4，GN的精度保持相似（72.8/90.6对73.0/90.6），但优于BN的72.1/90.0。当批量大小从8减少到4时，BN的准确度降低了1.2％。

图7显示了误差曲线。当批量大小从8减少到4时，BN的误差曲线（左）有明显的间隙，而GN的误差曲线（右）非常相似。

64帧输入的结果。表8（第3栏）显示了使用64帧剪辑的结果。在这种情况下，BN的结果为73.3/ 90.8。这些似乎是可接受的数字（相对于32帧的批量大小为73的73.3/ 90.7），但是时间长度（64对32）和批量大小（4对8）之间的权衡可能已被忽略。比较表8中的col.3和col.2，我们发现时间长度实际上具有正面影响（+1.2％），但被小批量引起的BN的负面影响掩盖住了。

GN没有遭受这种权衡。GN的64帧变量具有74.5/91.7的准确度，显示出其BN计数器部分和所有BN变量的健康增益。 GN帮助模型从时间长度中获益，而较长的剪辑使用相同的批量大小将前1精度提高1.7％（前5个1.1％）。

GN在检测、分割和视频分类方面的改进表明GN在这些任务中是强大且是当前占主导地位的BN技术的强有力替代品。