深度学习中的Normalization模型

最新推荐文章于 2024-08-11 03:36:36 发布

张俊林博客

最新推荐文章于 2024-08-11 03:36:36 发布

阅读量1.8w

点赞数 56

分类专栏：深度学习文章标签：深度学习 Batch Normalization Layer Normalization Group Normalization Instance Normalization

本文链接：https://blog.csdn.net/malefactor/article/details/82154224

版权

本文详细介绍了深度学习中的Normalization技术，包括Batch Normalization、Layer Normalization、Instance Normalization和Group Normalization。作者指出，Normalization的主要目的是将神经元激活值转化为均值为0、方差为1的正态分布，以提升模型训练效果。文中强调了Batch Size对BN的影响，以及BN在RNN等动态网络中的局限性，并讨论了不同Normalization方法在不同场景下的适用性。此外，还探讨了Normalization的Re-Scaling不变性及其加速训练、缓解梯度消失问题的原因。

摘要由CSDN通过智能技术生成

/*本文可以随便转载，转载时请注明作者及文章出处*/

作者：新浪微博张俊林

Batch Normalization（简称BN）自从提出之后，因为效果特别好，很快被作为深度学习的标准工具应用在了各种场合。BN大法虽然好，但是也存在一些局限和问题，诸如当BatchSize太小时效果不佳、对RNN等动态网络无法有效应用BN等。针对BN的问题，最近两年又陆续有基于BN思想的很多改进Normalization模型被提出。BN是深度学习进展中里程碑式的工作之一，无论是希望深入了解深度学习，还是在实践中解决实际问题，BN及一系列改进Normalization工作都是绕不开的重要环节。

一.从Mini-Batch SGD说起

我们先从Mini-Batch SGD的优化过程讲起，因为这是下一步理解Batch Normalization中Batch所代表具体含义的知识基础。

我们知道，SGD是无论学术圈写文章做实验还是工业界调参跑模型最常用的模型优化算法，但是有时候容易被忽略的一点是：一般提到的SGD是指的Mini-batch SGD，而非原教旨意义下的单实例SGD。

图1. Mini-Batch SGD 训练过程（假设Batch Size=2）

所谓“Mini-Batch”,是指的从训练数据全集T中随机选择的一个训练数据子集合。假设训练数据集合T包含N个样本，而每个Mini-Batch的Batch Size为b，于是整个训练数据可被分成N/b个Mini-Batch。在模型通过SGD进行训练时，一般跑完一个Mini-Batch的实例，叫做完成训练的一步（step）,跑完N/b步则整个训练数据完成一轮训练，则称为完成一个Epoch。完成一个Epoch训练过程后，对训练数据做随机Shuffle打乱训练数据顺序，重复上述步骤，然后开始下一个Epoch的训练，对模型完整充分的训练由多轮Epoch构成（参考图1）。

在拿到一个Mini-Batch进行参数更新时，首先根据当前Mini-Batch内的b个训练实例以及参数对应的损失函数的偏导数来进行计算，以获得参数更新的梯度方向，然后根据SGD算法进行参数更新，以此来达到本步（Step）更新模型参数并逐步寻优的过程。

图2. Mini-Batch SGD优化过程

具体而言，如果我们假设机器学习任务的损失函数是平方损失函数：

那么，由Mini-Batch内训练实例可得出SGD优化所需的梯度方向为：

其中，是Mini-Batch内第i个训练实例对应的输入和值。是希望学习到的映射函数，其中是函数对应的当前参数值。代表了Mini-Batch中实例i决定的梯度方向，Batch内所有训练实例共同决定了本次参数更新的梯度方向。

根据梯度方向即可利用标准SGD来更新模型参数：

其中，η是学习率。

由上述过程（参考图2）可以看出，对于Mini-Batch SGD训练方法来说，为了能够参数更新必须得先求出梯度方向，而为了能够求出梯度方向，需要对每个实例得出当前参数下映射函数的预测值hθxi，这意味着如果是用神经网络来学习映射函数hθ的话，Mini-Batch内的每个实例需要走一遍当前的网络，产生当前参数下神经网络的预测值，这点请注意，这是理解后续Batch Normalization的基础。

至于Batch Size的影响，目前可以实验证实的是：batch size 设置得较小训练出来的模型相对大batch size训练出的模型泛化能力更强，在测试集上的表现更好，而太大的batch size往往不太Work，而且泛化能力较差。但是背后是什么原因造成的，目前还未有定论，持不同看法者各持己见。因为这不是文本的重点，所以先略过不表。

二．Normalization到底是在做什么

Normalization的中文翻译一般叫做“规范化”，是一种对数值的特殊函数变换方法，也就是说假设原始的某个数值是x，套上一个起到规范化作用的函数，对规范化之前的数值x进行转换，形成一个规范化后的数值，即：

所谓规范化，是希望转换后的数值满足一定的特性，至于对数值具体如何变换，跟规范化目标有关，也就是说f()函数的具体形式，不同的规范化目标导致具体方法中函数所采用的形式不同。

其实我们生活中也有很多类似的规范化操作，知乎里面有个热帖，主题是：“为什么人大附中的学生那么爱穿校服？”，里面有人打趣地问：“请问人大附中的学生洗澡的时候脱不脱校服？”。这个问题我回答不了，要我猜大概率夏天洗澡的时候是会脱的，要不然洗澡的时候天太热人受不了，冬天则未必，穿着洗可能更保暖。跑题了，其实我想说的是：学校要求学生穿校服就是一种典型的规范化操作，学校的规范化目标是要求学生着装整齐划一，显得干练有风貌，所以定义了一个规范化函数：

就是说不论哪个学生，不论你平常的着装变量x=”香奈儿”还是x=“麻袋片”，经过这个规范化函数操作，统一都换成校服。这样就达到了学校的规范化目的。

图3. 神经元

在介绍深度学习Normalization前，我们先普及下神经元的活动过程。深度学习是由神经网络来体现对输入数据的函数变换的，而神经网络的基础单元就是网络神经元，一个典型的神经元对数据进行处理时包含两个步骤的操作（参考图3）：

步骤一：对输入数据进行线性变换，产生净激活值

其中，x是输入，w是权重参数，b是偏置，w和b是需要进过训练学习的网络参数。

步骤二：套上非线性激活函数，神经网络的非线性能力来自于此，目前深度学习最常用的激活函数是Relu函数

x=Relu(a)

如此一个神经元就完成了对输入数据的非线性函数变换。这里需要强调下，步骤一的输出一般称为净激活（Net Activation），第二步骤经过激活函数后得到的值为激活值。为了描述简洁，本文后续文字中使用激活的地方，其实指的是未经激活函数的净激活值，而非一般意义上的激活，这点还请注意。

至于深度学习中的Normalization，因为神经网络里主要有两类实体：神经元或者连接神经元的边，所以按照规范化操作涉及对象的不同可以分为两大类，一类是对第L层每个神经元的激活值或者说对于第L+1层网络神经元的输入值进行Normalization操作，比如BatchNorm/LayerNorm/InstanceNorm/GroupNorm等方法都属于这一类；另外一类是对神经网络中连接相邻隐层神经元之间的边上的权重进行规范化操作，比如Weight Norm就属于这一类。广义上讲，一般机器学习里看到的损失函数里面加入的对参数的的L1/L2等正则项，本质上也属于这第二类规范化操作。L1正则的规范化目标是造成参数的稀疏化，就是争取达到让大量参数值取得0值的效果，而L2正则的规范化目标是有效减小原始参数值的大小。有了这些规范目标，通过具体的规范化手段来改变参数值，以达到避免模型过拟合的目的。

本文主要介绍第一类针对神经元的规范化操作方法，这是目前DNN做Normalization最主流的做法。

图4. Normalization加入的位置

那么对于第一类的Normalization操作，其在什么位置发挥作用呢？目前有两种在神经元中插入Normalization操作的地方（参考图4），第一种是原始BN论文提出的，放在激活函数之前；另外一种是后续研究提出的，放在激活函数之后，不少研究表明将BN放在激活函数之后效果更好。本文在讲解时仍然遵循BN原始论文&