Normalization

最新推荐文章于 2024-07-04 20:26:48 发布

gwpscut

最新推荐文章于 2024-07-04 20:26:48 发布

阅读量1.8w

点赞数 28

本文链接：https://blog.csdn.net/gwplovekimi/article/details/84647354

版权

深度学习专栏收录该内容

63 篇文章 28 订阅

订阅专栏

Normalization

在我们讲深度学习的normalization 的算法开始，我们先了解一下机器学习的特征标准化，来让我们更好理解接下来要讲的算法。

标准化（Normalization）

目的：

在数据分析之前，我们通常需要先将数据标准化（normalization），利用标准化后的数据进行数据分析。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题，对不同性质指标直接加总不能正确反映不同作用力的综合结果，须先考虑改变逆指标数据性质，使所有指标对测评方案的作用力同趋化，再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性。经过上述标准化处理，原始数据均转换为无量纲化指标测评值，即各指标值都处于同一个数量级别上，可以进行综合测评分析。也就说标准化（normalization）的目的是：

1.把特征的各个维度标准化到特定的区间

2.把有量纲表达式变为无量纲表达式

归一化后有两个好处：

1.加快基于梯度下降法或随机梯度下降法模型的收敛速度

如果特征的各个维度的取值范围不同，那么目标函数的等线很可能是一组椭圆，各个特征的取值范围差别越大，椭圆等高线会更加狭长。由于梯度方向垂直于等高线方向，因而这时优化路线会较为曲折，这样迭代会很慢，相比之下，如果特征的各个维度取值范围相近，那么目标函数很可能很接近一组于正圆，因而优化路线就会较为直接，迭代就会很快。

如上图，x1的取值为0-2000，而x2的取值为1-5，假如只有这两个特征，对其进行优化时，会得到一个窄长的椭圆形，导致在梯度下降时，梯度的方向为垂直等高线的方向而走之字形路线，这样会使迭代很慢，相比之下，右图的迭代就很快。

2. 提升模型的精度

在多指标评价体系中，由于各评价指标的性质不同，通常具有不同的量纲和量级。当各指标间的水平相差很大时，如果直接用原始指标值进行分析，就会突出数值较高的指标在综合分析中的作用，相对削弱数值水平较低指标的作用。因此，为了保证结果的可靠性，需要对原始指标数据进行标准化处理。

如在涉及到一些距离计算的算法时，例如KNN：如果一个特征值域范围非常大，那么距离计算就主要取决于这个特征，从而与实际情况相悖（比如这时实际情况是值域范围小的特征更重要）。另外在SVM中，最后的权值向量ωω受较高指标的影响较大。

所以归一化很有必要，它可以让各个特征对结果做出的贡献相同。

深度学习中的Normalization

至于深度学习中的Normalization，因为神经网络里主要有两类实体：神经元或者连接神经元的边，所以按照规范化操作涉及对象的不同可以分为两大类，一类是对第L层每个神经元的激活值或者说对于第L+1层网络神经元的输入值进行Normalization操作，比如BatchNorm/LayerNorm/InstanceNorm/GroupNorm/Switchable Norm等方法都属于这一类；另外一类是对神经网络中连接相邻隐层神经元之间的边上的权重进行规范化操作，比如Weight Norm就属于这一类。广义上讲，一般机器学习里看到的损失函数里面加入的对参数的的L1/L2等正则项，本质上也属于这第二类规范化操作。L1正则的规范化目标是造成参数的稀疏化，就是争取达到让大量参数值取得0值的效果，而L2正则的规范化目标是有效减小原始参数值的大小。有了这些规范目标，通过具体的规范化手段来改变参数值，以达到避免模型过拟合的目的。

Normalization 究竟在做什么？

对于第一类的Normalization操作，就像激活函数层、卷积层、全连接层、池化层一样Normalization也属于网络的一层。对于神经元的激活值来说，不论哪种Normalization方法，其规范化目标都是一样的，就是将其激活值规整为均值为0，方差为1的正态分布。即规范化函数统一都是如下形式：

你可能在想这个多出来的参数γ、βi是干啥的，其实这就是算法关键之处：我们知道对网络某一层A的输出数据做归一化，然后送入网络下一层B，这样是会影响到本层网络A所学习到的特征的。打个比方，比如我网络中间某一层学习到特征数据本身就分布在S型激活函数的两侧，你强制把它给我归一化处理、标准差也限制在了1，把数据变换成分布于s函数的中间部分，这样就相当于我这一层网络所学习到的特征分布被你搞坏了，而引入这两个参数就可以解决这个问题。取一个特殊情况，如果γ等于标准差，βi等于均值，那激活值便于输入相同。所以引入这两个参数是可以恢复出原始的某一层所学到的特征的。

目前神经网络中常见的第一类Normalization方法包括BN，后面几个算法算是BN的改进版本。不论是哪个方法，其基本计算步骤都如上所述，大同小异，最主要的区别在于神经元集合S的范围怎么定，不同的方法采用了不同的神经元集合定义方法。

为什么这些Normalization需要确定一个神经元集合S呢？原因很简单，前面讲过，这类深度学习的规范化目标是将神经元的激活值限定在均值为0方差为1的正态分布中。而为了能够对网络中某个神经元的激活值规范到均值为0方差为1的范围，必须有一定的手段求出均值和方差，而均值和方差是个统计指标，要计算这两个指标一定是在一个集合范围内才可行，所以这就要求必须指定一个神经元组成的集合，利用这个集合里每个神经元的激活来统计出所需的均值和方差，这样才能达到预定的规范化目标

这个例子中隐层的六个神经元在某刻进行Normalization计算的时候共用了同一个集合S，在实际的计算中，隐层中的神经元可能共用同一个集合，也可能每个神经元采用不同的神经元集合S，并非一成不变，这点还请留心与注意。

接下来介绍几种常用的Normalization。

Batch Normalization

基于划分S单元图解BN

对于前向神经网络来说，BatchNorm在计算隐层某个神经元k激活的规范值的时候，对应的神经元集合S范围是如何划定呢？上图给出了示意。因为对于Mini-Batch训练方法来说，根据Loss更新梯度使用Batch中所有实例来做，所以对于神经元k来说，假设某个Batch包含n个训练实例，那么每个训练实例在神经元k都会产生一个激活值，也就是说Batch中n个训练实例分别通过同一个神经元k的时候产生了n个激活值，BatchNorm的集合S选择入围的神经元就是这n个同一个神经元被Batch不同训练实例激发的激活值。划定集合S的范围后，Normalization的具体计算过程与前文所述计算过程一样，采用公式即可完成规范化操作。

了解了前向神经网络中的BatchNorm ，接下来介绍CNN中的BatchNorm，我们知道，常规的CNN一般由卷积层、下采样层及全连接层构成。全连接层形式上与前向神经网络是一样的，所以可以采取前向神经网络中的BatchNorm方式，而下采样层本身不带参数所以可以忽略，所以CNN中主要关注卷积层如何计算BatchNorm。

CNN中的某个卷积层由m个卷积核构成，每个卷积核对三维的输入（通道数*长*宽）进行计算，激活及输出值是个二维平面（长*宽），对应一个输出通道，由于存在m个卷积核，所以输出仍然是三维的，由m个通道及每个通道的二维平面构成。

那么在卷积层中，如果要对通道激活二维平面中某个激活值进行Normalization操作，怎么确定集合S的范围呢？上图给出了示意图。类似于前向神经网络中的BatchNorm计算过程，对于Mini-Batch训练方法来说，反向传播更新梯度使用Batch中所有实例的梯度方向来进行，所以对于CNN某个卷积层对应的输出通道k来说，假设某个Batch包含n个训练实例，那么每个训练实例在这个通道k都会产生一个二维激活平面，也就是说Batch中n个训练实例分别通过同一个卷积核的输出通道k的时候产生了n个激活平面。假设激活平面长为5，宽为4，则激活平面包含20个激活值，n个不同实例的激活平面共包含20*n个激活值。那么BatchNorm的集合S的范围就是由这20*n个同一个通道被Batch不同训练实例激发的激活平面中包含的所有激活值构成（对应图中所有标为蓝色的激活值）。划定集合S的范围后，激活平面中任意一个激活值都需进行Normalization操作，其Normalization的具体计算过程与前文所述计算过程一样，采用公式即可完成规范化操作。这样即完成CNN卷积层的BatchNorm转换过程。

Batch Normalization网络层的前向传导具体过程公式就是：

上面的公式中m指的是mini-batch size

（所谓“Mini-Batch”,是指的从训练数据全集T中随机选择的一个训练数据子集合。假设训练数据集合T包含N个样本，而每个Mini-Batch的Batch Size为b，于是整个训练数据可被分成N/b个Mini-Batch）

优点

1.没有它之前，需要小心的调整学习率和权重初始化，但是有了BN可以放心的使用大学习率，但是使用了BN，就不用小心的调参了，较大的学习率极大的提高了学习速度。

2.Batchnorm本身上也是一种正则的方式，可以代替其他正则方式如dropout等。

缺点

1.对batchsize 大小敏感。太小的size不能体现数据特征，会大大影响结果。但是有些任务要求小size，BN便不能使用

2.图片风格转换等应用场景，使用BN会带来负面效果，这很可能是因为在Mini-Batch内多张无关的图片之间计算统计量，弱化了单张图片本身特有的一些细节信息。

3.RNN等动态网络使用BN效果不佳且使用起来不方便。

RNN输入的Sequence序列是不定长的，这会使的BN得到的size不稳定，结果可信度下降。

训练时和推理时统计量不一致

对于BN来说，采用Mini-Batch内实例来计算统计量，这在训练时没有问题，但是在模型训练好之后，在线推理的时候会有麻烦。因为在线推理或预测的时候，是单实例的，不存在Mini-Batch，所以就无法获得BN计算所需的均值和方差，一般解决方法是采用训练时刻记录的各个Mini-Batch的统计量的数学期望，以此来推算全局的均值和方差，在线推理时采用这样推导出的统计量。虽说实际使用并没大问题，但是确实存在训练和推理时刻统计量计算方法不一致的问题。

上面所列BN的缺点，其实深入思考，都指向了幕后同一个黑手，这个隐藏在暗处的黑手是谁呢？就是BN要求计算统计量的时候必须在同一个Mini-Batch内的实例之间进行统计，因此形成了Batch内实例之间的相互依赖和影响的关系。如何从根本上解决这些问题？一个自然的想法是：把对Batch的依赖去掉，转换统计集合范围。在统计均值方差的时候，不依赖Batch内数据，只用当前处理的单个训练数据来获得均值方差的统计量，这样因为不再依赖Batch内其它训练数据，那么就不存在因为Batch约束导致的问题。在BN后的几乎所有改进模型都是在这个指导思想下进行的。

Layer Normalization

为了解决BN的size敏感问题，我们完全可以直接用同层隐层神经元的响应值作为集合S的范围来求均值和方差。这就是Layer Normalization的基本思想。

基于划分S单元图解LN。

上述图分析同BN，我们可以看到LN是此时只考虑一个样本实例。所以，LN不依赖于batch的大小和输入sequence的深度，因此可以用于batchsize为1和RNN中对边长的输入sequence的normalize操作。但Layer Normalization目前看好像也只适合应用在RNN场景下，在CNN等环境下效果是不如BatchNorm或者GroupNorm等模型的。

LN是针对深度网络的某一层的所有神经元的输入按以下公式进行normalize操作：

Instance Normalization

从上述内容可以看出，Layer Normalization在抛开对Mini-Batch的依赖目标下，为了能够统计均值方差，很自然地把同层内所有神经元的响应值作为统计范围，那么我们能否进一步将统计范围缩小？对于CNN明显是可以的，因为同一个卷积层内每个卷积核会产生一个输出通道，而每个输出通道是一个二维平面，也包含多个激活神经元，自然可以进一步把统计范围缩小到单个卷积核对应的输出通道内部。下图展示了CNN中的Instance Normalization，对于图中某个卷积层来说，每个输出通道内的神经元会作为集合S来统计均值方差。

Instance Normalization对于一些图片生成类的任务比如图片风格转换来说效果是明显优于BN的，BN注重对每个batch进行归一化，保证数据分布一致，因为判别模型中结果取决于数据整体分布。但是图像风格化中，生成结果主要依赖于某个图像实例，所以对整个batch归一化不适合图像风格化中，而LN只针对HW做归一化，因而用LN做归一化。可以加速模型收敛，并且保持每个图像实例之间的独立。

公式如下：

Group Normalization

从上面的Layer Normalization和Instance Normalization可以看出，这是两种极端情况，Layer Normalization是将同层所有神经元作为统计范围，而Instance Normalization则是CNN中将同一卷积层中每个卷积核对应的输出通道单独作为自己的统计范围。那么，有没有介于两者之间的统计范围呢？通道分组是CNN常用的模型优化技巧，所以自然而然会想到对CNN中某一层卷积层的输出或者输入通道进行分组，在分组范围内进行统计。这就是Group Normalization的核心思想，是Facebook何凯明研究组2017年提出的改进模型。

下图展示了CNN中的Group Normalization

Group Normalization在要求Batch Size比较小的场景下或者物体检测／视频分类等应用场景下效果是优于BN的。

公式：

第一部分总结

将输入的图像shape记为[N, C, H, W]，这几个方法主要的区别就是在:

batchNorm是在batch上，对NHW做归一化，对小batchsize效果不好；

layerNorm在通道方向上，对CHW归一化，主要对RNN作用明显；

instanceNorm在图像像素上，对HW做归一化，用在风格化迁移；

GroupNorm将channel分组，然后再做归一化；

除了以上第一类基于神经元的Normalization的方法外，我们还可以通过对参数的正则来实现。而这其中的典型代表为weight normalization。

weight normalization

BN和LN将规范化应用于输入数据x，WN则对权重进行规范化。即将权重向量分解为权重大小和方向两部分：

WN不依赖于输入数据的分布，故可应用于mini-batch较小的情景且可用于动态网络结构。此外，WN还避免了LN中对每一层使用同一个规范化公式的不足。

总的来看，LN、BN属于将特征规范化，WN是将参数规范化。三种规范化方式尽管对输入数据的尺度化（scale）来源不同，但其本质上都实现了数据的规范化操作。

Switchable Normalization

归一化技术已经成为深度学习系统必不可少的重要组成部分，对优化神经网络的参数、提高泛化性能有着重要作用。这些归一化方法包括但不限于批归一化BN（Batch Normalization），实例归一化IN（Instance Normalization），和层归一化LN（Layer Normalization）。对归一化方法提出两点思考：第一，归一化虽然提高模型泛化能力，然而归一化层的操作是人工设计的。在实际应用中，解决不同的问题原则上需要设计不同的归一化操作，并没有一个通用的归一化方法能够解决所有应用问题；第二，一个深度神经网络往往包含几十个归一化层，通常这些归一化层都使用同样的归一化操作，因为手工为每一个归一化层设计操作需要进行大量的实验。本文作者提出自适配归一化方法——Switchable Normalization（SN）来解决上述问题。与强化学习不同，SN使用可微分学习，为一个深度网络中的每一个归一化层确定合适的归一化操作。SN不但易于使用而且性能优越。更重要的是它对归一化方法的理论分析有着重要参考意义。

Switchable Normalization（SN）统一了实例归一化Instance Normalization（IN），层归一化Layer Normalization（LN），和批归一化Batch Normalization（BN）的各种操作。假设一个卷积神经网络（CNN）的一个隐含卷积层的输入数据可表示为具有四个维度的特征图，[N, C, H, W] 。这里每个维度分别代表样本数目（minibatch size），通道数目（number of channels），通道的高（height），和通道的宽（width）。假设每一个像素表示为 hncij ，这里 n.c.i.j 为上述四个维度的下标。SN对 hncij 进行归一化操作，并输出归一化后的像素值。SN的计算公式如下：

上述定义与BN，IN，和LN的定义相似。他们都学习了缩放系数和偏移系数。主要的区别在于SN的统计信息（即均值不像IN只是在一个通道中计算的，也不像LN只是在一个层中计算，而是在一个集合 Ώ 当中选择合适的归一化方法来加权平均的。SN中每个样本每个通道的均值和方差，由BN、IN、LN三种不同统计方法计算得到的均值和方差共同决定。λk为三个维度统计量对应的参数。为了与网络参数（如卷积核）区分，这些参数称为控制参数。

SN的优势

相比于其他归一化方法，SN有以下性质：

1.鲁棒性：对mini-batch尺寸的不敏感使其精度在各种batch size设置下都保持稳定。特别是在batch size受限的视觉任务中相对有利，例如物体检测、实例分割、视频识别等。

2.通用性：以往不同的归一化方法依赖不同维度的统计信息，针对不同的视觉任务需要选择不同的网络结构。精细的手动设计和繁琐的实验验证使实际应用中的模型选择变得非常困难。SN适用于各种网络结构包括CNNs和RNNs，并能够解决多种视觉任务。

3.多样性：SN为神经网络不同归一化层选择不同操作，拓展了归一化技术的边界，具有重要意义。直观而言，现有的方法都是对整个网络的所有层保持相同的归一化操作。然而，神经网络学习得到的高层特征具有高层语义，而低层特征学习底层视觉信息。我们应该为处在神经网络不同位置、不同深度的归一化层选择不同的操作。问题在于一方面很难手动选择整个网络的不同归一化操作，另一方面通过实验选择单一的归一化操作不一定能达到最优性能。