深度学习中的Normalization模型（一）

最新推荐文章于 2024-03-13 22:18:59 发布

ronghuaiyang

最新推荐文章于 2024-03-13 22:18:59 发布

阅读量489

点赞数

原文链接：https://zhuanlan.zhihu.com/p/43200897

版权

之前一直在做CV相关的工作，一直在用cnn，cnn中有个特别常用的东西叫做归一化，归一化的方法也有很多，用法也各不相同，发现一篇整理的很好的文章，给大家分享一下，文章图文并茂，有原理也有例子，文章有点长，分两次给大家分享，但是这个时间花的很值得，相信大家一定会有收获的。

以下为干货！

Batch Normalization（简称BN）自从提出之后，因为效果特别好，很快被作为深度学习的标准工具应用在了各种场合。BN大法虽然好，但是也存在一些局限和问题，诸如当BatchSize太小时效果不佳、对RNN等动态网络无法有效应用BN等。针对BN的问题，最近两年又陆续有基于BN思想的很多改进Normalization模型被提出。BN是深度学习进展中里程碑式的工作之一，无论是希望深入了解深度学习，还是在实践中解决实际问题，BN及一系列改进Normalization工作都是绕不开的重要环节。

一.从Mini-Batch SGD说起

我们先从Mini-Batch SGD的优化过程讲起，因为这是下一步理解Batch Normalization中Batch所代表具体含义的知识基础。

我们知道，SGD是无论学术圈写文章做实验还是工业界调参跑模型最常用的模型优化算法，但是有时候容易被忽略的一点是：一般提到的SGD是指的Mini-batch SGD，而非原教旨意义下的单实例SGD。

图1. Mini-Batch SGD 训练过程（假设Batch Size=2）

所谓“Mini-Batch”,是指的从训练数据全集T中随机选择的一个训练数据子集合。假设训练数据集合T包含N个样本，而每个Mini-Batch的Batch Size为b，于是整个训练数据可被分成N/b个Mini-Batch。在模型通过SGD进行训练时，一般跑完一个Mini-Batch的实例，叫做完成训练的一步（step）,跑完N/b步则整个训练数据完成一轮训练，则称为完成一个Epoch。完成一个Epoch训练过程后，对训练数据做随机Shuffle打乱训练数据顺序，重复上述步骤，然后开始下一个Epoch的训练，对模型完整充分的训练由多轮Epoch构成（参考图1）。

在拿到一个Mini-Batch进行参数更新时，首先根据当前Mini-Batch内的b个训练实例以及参数对应的损失函数的偏导数来进行计算，以获得参数更新的梯度方向，然后根据SGD算法进行参数更新，以此来达到本步（Step）更新模型参数并逐步寻优的过程。

图2. Mini-Batch SGD优化过程

具体而言，如果我们假设机器学习任务的损失函数是平方损失函数：

那么，由Mini-Batch内训练实例可得出SGD优化所需的梯度方向为：

根据梯度方向即可利用标准SGD来更新模型参数：

其中，$\eta$是学习率。

由上述过程（参考图2）可以看出，对于Mini-Batch SGD训练方法来说，为了能够参数更新必须得先求出梯度方向，而为了能够求出梯度方向，需要对每个实例得出当前参数下映射函数的预测值，这意味着如果是用神经网络来学习映射函数h(x)的话，Mini-Batch内的每个实例需要走一遍当前的网络，产生当前参数下神经网络的预测值，这点请注意，这是理解后续Batch Normalization的基础。

至于Batch Size的影响，目前可以实验证实的是：batch size 设置得较小训练出来的模型相对大batch size训练出的模型泛化能力更强，在测试集上的表现更好，而太大的batch size往往不太Work，而且泛化能力较差。但是背后是什么原因造成的，目前还未有定论，持不同看法者各持己见。因为这不是文本的重点，所以先略过不表。

二．Normalization到底是在做什么

Normalization的中文翻译一般叫做“规范化”，是一种对数值的特殊函数变换方法，也就是说假设原始的某个数值是x，套上一个起到规范化作用的函数，对规范化之前的数值x进行转换，形成一个规范化后的数值，即：

所谓规范化，是希望转换后的数值满足一定的特性，至于对数值具体如何变换，跟规范化目标有关，也就是说f()函数的具体形式，不同的规范化目标导致具体方法中函数所采用的形式不同。

其实我们生活中也有很多类似的规范化操作，知乎里面有个热帖，主题是：“为什么人大附中的学生那么爱穿校服？”，里面有人打趣地问：“请问人大附中的学生洗澡的时候脱不脱校服？”。这个问题我回答不了，要我猜大概率夏天洗澡的时候是会脱的，要不然洗澡的时候天太热人受不了，冬天则未必，穿着洗可能更保暖。跑题了，其实我想说的是：学校要求学生穿校服就是一种典型的规范化操作，学校的规范化目标是要求学生着装整齐划一，显得干练有风貌，所以定义了一个规范化函数：

就是说不论哪个学生，不论你平常的着装变量x=”香奈儿”还是x=“麻袋片”，经过这个规范化函数操作，统一都换成校服。这样就达到了学校的规范化目的。

图3. 神经元

在介绍深度学习Normalization前，我们先普及下神经元的活动过程。深度学习是由神经网络来体现对输入数据的函数变换的，而神经网络的基础单元就是网络神经元，一个典型的神经元对数据进行处理时包含两个步骤的操作（参考图3）：

步骤一：对输入数据进行线性变换，产生净激活值

其中，x是输入，w是权重参数，b是偏置，w和b是需要进过训练学习的网络参数。

步骤二：套上非线性激活函数，神经网络的非线性能力来自于此，目前深度学习最常用的激活函数是Relu函数，x=Relu(a)如此一个神经元就完成了对输入数据的非线性函数变换。这里需要强调下，步骤一的输出一般称为净激活（Net Activation），第二步骤经过激活函数后得到的值为激活值。为了描述简洁，本文后续文字中使用激活的地方，其实指的是未经激活函数的净激活值，而非一般意义上的激活，这点还请注意。

至于深度学习中的Normalization，因为神经网络里主要有两类实体：神经元或者连接神经元的边，所以按照规范化操作涉及对象的不同可以分为两大类，一类是对第L层每个神经元的激活值或者说对于第L+1层网络神经元的输入值进行Normalization操作，比如BatchNorm/LayerNorm/InstanceNorm/GroupNorm等方法都属于这一类；另外一类是对神经网络中连接相邻隐层神经元之间的边上的权重进行规范化操作，比如Weight Norm就属于这一类。广义上讲，一般机器学习里看到的损失函数里面加入的对参数的的L1/L2等正则项，本质上也属于这第二类规范化操作。L1正则的规范化目标是造成参数的稀疏化，就是争取达到让大量参数值取得0值的效果，而L2正则的规范化目标是有效减小原始参数值的大小。有了这些规范目标，通过具体的规范化手段来改变参数值，以达到避免模型过拟合的目的。

本文主要介绍第一类针对神经元的规范化操作方法，这是目前DNN做Normalization最主流的做法。

图4. Normalization加入的位置

那么对于第一类的Normalization操作，其在什么位置发挥作用呢？目前有两种在神经元中插入Normalization操作的地方（参考图4），第一种是原始BN论文提出的，放在激活函数之前；另外一种是后续研究提出的，放在激活函数之后，不少研究表明将BN放在激活函数之后效果更好。本文在讲解时仍然遵循BN原始论文，后续讲解都可以看成是将Normalization操作放在激活函数之前进行。

对于神经元的激活值来说，不论哪种Normalization方法，其规范化目标都是一样的，就是将其激活值规整为均值为0，方差为1的正态分布。即规范化函数统一都是如下形式：

写成两步的模式是为了方便讲解，如果写成一体的形式，则是如下形式：

其中，ai为某个神经元原始激活值，ai norm为经过规范化操作后的规范后值。整个规范化过程可以分解为两步，第一步参考公式（1），是对激活值规整到均值为0，方差为1的正态分布范围内。其中，u是通过神经元集合S（至于S如何选取读者可以先不用关注，后文有述）中包含的m个神经元各自的激活值求出的均值，即：

为根据均值和集合S中神经元各自激活值求出的激活值标准差：

其中，epsilon是为了增加训练稳定性而加入的小的常量数据。

第二步参考公式（2），主要目标是让每个神经元在训练过程中学习到对应的两个调节因子，对规范到0均值，1方差的值进行微调。因为经过第一步操作后，Normalization有可能降低神经网络的非线性表达能力，所以会以此方式来补偿Normalization操作后神经网络的表达能力。

目前神经网络中常见的第一类Normalization方法包括Batch Normalization/Layer Normalization/Instance Normalization和Group Normalization，BN最早由Google研究人员于2015年提出，后面几个算法算是BN的改进版本。不论是哪个方法，其基本计算步骤都如上所述，大同小异，最主要的区别在于神经元集合S的范围怎么定，不同的方法采用了不同的神经元集合定义方法。

为什么这些Normalization需要确定一个神经元集合S呢？原因很简单，前面讲过，这类深度学习的规范化目标是将神经元的激活值限定在均值为0方差为1的正态分布中。而为了能够对网络中某个神经元的激活值规范到均值为0方差为1的范围，必须有一定的手段求出均值和方差，而均值和方差是个统计指标，要计算这两个指标一定是在一个集合范围内才可行，所以这就要求必须指定一个神经元组成的集合，利用这个集合里每个神经元的激活来统计出所需的均值和方差，这样才能达到预定的规范化目标。

图5. Normalization具体例子

图5给出了这类Normalization的一个计算过程的具体例子，例子中假设网络结构是前向反馈网络，对于隐层的三个节点来说，其原初的激活值为[0.4,-0.6,0.7]，为了可以计算均值为0方差为1的正态分布，划定集合S中包含了这个网络中的6个神经元，至于如何划定集合S读者可以先不用关心，此时其对应的激活值如图中所示，根据这6个激活值，可以算出对应的均值和方差。有了均值和方差，可以利用公式3对原初激活值进行变换，如果r和b被设定为1，那么可以得到转换后的激活值[0.21，-0.75,0.50]，对于新的激活值经过非线性变换函数比如RELU，则形成这个隐层的输出值[0.21,0,0.50]。这个例子中隐层的三个神经元在某刻进行Normalization计算的时候共用了同一个集合S，在实际的计算中，隐层中的神经元可能共用同一个集合，也可能每个神经元采用不同的神经元集合S，并非一成不变，这点还请留心与注意。

针对神经元的所有Normalization方法都遵循上述计算过程，唯一的不同在于如何划定计算统计量所需的神经元集合S上。读者可以自己思考下，如果你是BN或者其它改进模型的设计者，那么你会如何选取集合S？

三.Batch Normalization如何做

我们知道，目前最常用的深度学习基础模型包括前向神经网络（MLP），CNN和RNN。目前BN在这些基础网络结构都有尝试，总体而言，BN在MLP和CNN是非常成功的，在RNN上效果不明显。下面我们分述前向神经网络以及CNN中如何应用BN，然后谈谈BN面临的一些困境。正是这些困境引发了后续的一系列改进模型的提出。

3.1前向神经网络中的BN

图6. 前向神经网络中的BatchNorm

对于前向神经网络来说，BatchNorm在计算隐层某个神经元k激活的规范值的时候，对应的神经元集合S范围是如何划定呢？图6给出了示意。因为对于Mini-Batch训练方法来说，根据Loss更新梯度使用Batch中所有实例来做，所以对于神经元k来说，假设某个Batch包含n个训练实例，那么每个训练实例在神经元k都会产生一个激活值，也就是说Batch中n个训练实例分别通过同一个神经元k的时候产生了n个激活值，BatchNorm的集合S选择入围的神经元就是这n个同一个神经元被Batch不同训练实例激发的激活值。划定集合S的范围后，Normalization的具体计算过程与前文所述计算过程一样，采用公式3即可完成规范化操作。

3.2 CNN网络中的BN

了解了前向神经网络中的BatchNorm ，接下来介绍CNN中的BatchNorm，读者可以先自行思考下如果由你来主导设计，在CNN中究竟应该如何确定神经元集合S的势力范围。

我们知道，常规的CNN一般由卷积层、下采样层及全连接层构成。全连接层形式上与前向神经网络是一样的，所以可以采取前向神经网络中的BatchNorm方式，而下采样层本身不带参数所以可以忽略，所以CNN中主要关注卷积层如何计算BatchNorm。

图7. CNN中的卷积核

CNN中的某个卷积层由m个卷积核构成，每个卷积核对三维的输入（通道数*长*宽）进行计算，激活及输出值是个二维平面（长*宽），对应一个输出通道（参考图7），由于存在m个卷积核，所以输出仍然是三维的，由m个通道及每个通道的二维平面构成。

图8. CNN中的BatchNorm过程

那么在卷积层中，如果要对通道激活二维平面中某个激活值进行Normalization操作，怎么确定集合S的范围呢？图8给出了示意图。类似于前向神经网络中的BatchNorm计算过程，对于Mini-Batch训练方法来说，反向传播更新梯度使用Batch中所有实例的梯度方向来进行，所以对于CNN某个卷积层对应的输出通道k来说，假设某个Batch包含n个训练实例，那么每个训练实例在这个通道k都会产生一个二维激活平面，也就是说Batch中n个训练实例分别通过同一个卷积核的输出通道k的时候产生了n个激活平面。假设激活平面长为5，宽为4，则激活平面包含20个激活值，n个不同实例的激活平面共包含20*n个激活值。那么BatchNorm的集合S的范围就是由这20*n个同一个通道被Batch不同训练实例激发的激活平面中包含的所有激活值构成（对应图8中所有标为蓝色的激活值）。划定集合S的范围后，激活平面中任意一个激活值都需进行Normalization操作，其Normalization的具体计算过程与前文所述计算过程一样，采用公式3即可完成规范化操作。这样即完成CNN卷积层的BatchNorm转换过程。

图9. CNN中Batch Norm的另外一种角度的理解

描述起来似乎有些复杂，但是从概念上，其实可以把CNN中的卷积层想象成前向神经网络中的一个隐层，然后把对应的某个卷积核想象成MLP隐层中的一个神经元节点，无非其输出是个二维激活平面而不像MLP的神经元输出是一个激活值，另外一个不同是这个神经元覆盖的输入部分不同，CNN的卷积核是局部覆盖输入，通过滑动窗口来实现输入的全覆盖，而MLP的神经元则是一步到位全局覆盖输入而已(参考图9示意)。如果从这个角度思考CNN和MLP中的BatchNorm的话，其实两者的做法是一致的。

从理论上讲，类似的BatchNorm操作也可以应用在RNN上，事实上也有不少研究做了尝试，但是各种实验证明其实这么做没什么用，所以本文就不展开讲RNN中的BN了。

BatchNorm目前基本已经成为各种网络（RNN除外）的标配，主要是因为效果好，比如可以加快模型收敛速度，不再依赖精细的参数初始化过程，可以调大学习率等各种方便，同时引入的随机噪声能够起到对模型参数进行正则化的作用，有利于增强模型泛化能力。

但是，BatchNorm这么好用的大杀器，仍然存在很多问题。

3.3 Batch Norm的四大罪状

局限1：如果Batch Size太小，则BN效果明显下降。

BN是严重依赖Mini-Batch中的训练实例的，如果Batch Size比较小则任务效果有明显的下降。那么多小算是太小呢？图10给出了在ImageNet数据集下做分类任务时，使用ResNet的时候模型性能随着BatchSize变化时的性能变化情况，可以看出当BatchSize小于8的时候开始对分类效果有明显负面影响。之所以会这样，是因为在小的BatchSize意味着数据样本少，因而得不到有效统计量，也就是说噪音太大。这个很好理解，这就类似于我们国家统计局在做年均收入调查的时候，正好把你和马云放到一个Batch里算平均收入，那么当你为下个月房租发愁之际，突然听到你所在组平均年薪1亿美金时，你是什么心情，那小Mini-Batch里其它训练实例就是啥心情。

、

图10. BN的Batch Size大小对ImageNet分类任务效果的影响（From GN论文）

BN的Batch Size大小设置是由调参师自己定的，调参师只要把Batch Size大小设置大些就可以避免上述问题。但是有些任务比较特殊，要求batch size必须不能太大，在这种情形下，普通的BN就无能为力了。比如BN无法应用在Online Learning中，因为在线模型是单实例更新模型参数的，难以组织起Mini-Batch结构。

局限2：对于有些像素级图片生成任务来说，BN效果不佳；

对于图片分类等任务，只要能够找出关键特征，就能正确分类，这算是一种粗粒度的任务，在这种情形下通常BN是有积极效果的。但是对于有些输入输出都是图片的像素级别图片生成任务，比如图片风格转换等应用场景，使用BN会带来负面效果，这很可能是因为在Mini-Batch内多张无关的图片之间计算统计量，弱化了单张图片本身特有的一些细节信息。

局限3：RNN等动态网络使用BN效果不佳且使用起来不方便

对于RNN来说，尽管其结构看上去是个静态网络，但在实际运行展开时是个动态网络结构，因为输入的Sequence序列是不定长的，这源自同一个Mini-Batch中的训练实例有长有短。对于类似RNN这种动态网络结构，BN使用起来不方便，因为要应用BN，那么RNN的每个时间步需要维护各自的统计量，而Mini-Batch中的训练实例长短不一，这意味着RNN不同时间步的隐层会看到不同数量的输入数据，而这会给BN的正确使用带来问题。假设Mini-Batch中只有个别特别长的例子，那么对较深时间步深度的RNN网络隐层来说，其统计量不方便统计而且其统计有效性也非常值得怀疑。另外，如果在推理阶段遇到长度特别长的例子，也许根本在训练阶段都无法获得深层网络的统计量。综上，在RNN这种动态网络中使用BN很不方便，而且很多改进版本的BN应用在RNN效果也一般。

局限4：训练时和推理时统计量不一致

对于BN来说，采用Mini-Batch内实例来计算统计量，这在训练时没有问题，但是在模型训练好之后，在线推理的时候会有麻烦。因为在线推理或预测的时候，是单实例的，不存在Mini-Batch，所以就无法获得BN计算所需的均值和方差，一般解决方法是采用训练时刻记录的各个Mini-Batch的统计量的数学期望，以此来推算全局的均值和方差，在线推理时采用这样推导出的统计量。虽说实际使用并没大问题，但是确实存在训练和推理时刻统计量计算方法不一致的问题。

上面所列BN的四大罪状，表面看是四个问题，其实深入思考，都指向了幕后同一个黑手，这个隐藏在暗处的黑手是谁呢？就是BN要求计算统计量的时候必须在同一个Mini-Batch内的实例之间进行统计，因此形成了Batch内实例之间的相互依赖和影响的关系。如何从根本上解决这些问题？一个自然的想法是：把对Batch的依赖去掉，转换统计集合范围。在统计均值方差的时候，不依赖Batch内数据，只用当前处理的单个训练数据来获得均值方差的统计量，这样因为不再依赖Batch内其它训练数据，那么就不存在因为Batch约束导致的问题。在BN后的几乎所有改进模型都是在这个指导思想下进行的。

但是这个指导思路尽管会解决BN带来的问题，又会引发新的问题，新的问题是：我们目前已经没有Batch内实例能够用来求统计量了，此时统计范围必须局限在一个训练实例内，一个训练实例看上去孤零零的无依无靠没有组织，怎么看也无法求统计量，所以核心问题是对于单个训练实例，统计范围怎么算？

（未完待续）

本文可以任意转载，转载时请注明作者及原文地址。

作者简介：张俊林，中国中文信息学会理事，目前在新浪微博AI Lab担任资深算法专家。在此之前，张俊林曾经在阿里巴巴任资深技术专家，以及在百度和用友担任技术经理及技术总监等职务。同时他是技术书籍《这就是搜索引擎：核心技术详解》（该书荣获全国第十二届输出版优秀图书奖）、《大数据日知录：架构与算法》的作者。