【机器学习】LayerNorm & BatchNorm的作用以及区别

敲代码的quant

已于 2023-08-23 16:58:45 修改

阅读量2.8w

点赞数 97

分类专栏： machine learning 文章标签：机器学习深度学习神经网络

于 2022-01-23 21:00:59 首次发布

本文链接：https://blog.csdn.net/FrankieHello/article/details/122656652

版权

machine learning 专栏收录该内容

34 篇文章

订阅专栏

本文介绍了Normalization在深度学习中的目的及其两种主要方法：BatchNorm和LayerNorm。Normalization有助于提高模型训练的速度并减少过拟合的风险。BatchNorm适用于强调样本间关系的任务如计算机视觉；LayerNorm则适用于保留特征间时序关系的任务如自然语言处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

使用Normalization的目的

当我们使用梯度下降法做优化时，随着网络深度的增加，输入数据的特征分布会不断发生变化，为了保证数据特征分布的稳定性，会加入Normalization。从而可以使用更大的学习率，从而加速模型的收敛速度。同时，Normalization也有一定的抗过拟合作用，使训练过程更加平稳。
具体地，Normalization的主要作用就是把每层特征输入到激活函数之前，对它们进行normalization，使其转换为均值为0，方差为1的数据，从而可以避免数据落在激活函数的饱和区，以减少梯度消失的问题。

LayerNorm & BatchNorm

BN（BatchNorm）和LN（LayerNorm）是两种最常用的Normalization的方法，它们都是将输入特征转换为均值为0，方差为1的数据，它们的形式是：
只不过，BN是对一个batch-size样本内的每个特征做归一化，LN是对每个样本的所有特征做归一化。以一个二维矩阵为例，它的行数代表batch_size，列数代表fea_nums。BN就是竖着进行归一化，LN则是横着进行归一化。
在这里插入图片描述
所以，BN抹平了不同特征之间的大小关系，而保留了不同样本之间的大小关系。这样，如果具体任务依赖于不同样本之间的关系，BN更有效，尤其是在CV领域，例如不同图片样本进行分类，不同样本之间的大小关系得以保留。
LN抹平了不同样本之间的大小关系，而保留了不同特征之间的大小关系。所以，LN更适合NLP领域的任务，其中，一个样本的特征实际上就是不同word embedding，通过LN可以保留特征之间的这种时序关系。