BN与LN的区别

置顶小Aer

已于 2023-12-13 09:07:59 修改

阅读量1.2w

点赞数 23

分类专栏： # python 文章标签：面试 BN LN

于 2022-04-25 12:51:11 首次发布

本文链接：https://blog.csdn.net/qq_41542989/article/details/124402171

版权

python 专栏收录该内容

10 篇文章 2 订阅

订阅专栏

BN与LN的区别

主要区别在于 normalization的方向不同！

Batch 顾名思义是对一个batch进行操作。假设我们有 10行 3列的数据，即我们的batchsize = 10，每一行数据有三个特征，假设这三个特征是【身高、体重、年龄】。那么BN是针对每一列（特征）进行缩放，例如算出【身高】的均值与方差，再对身高这一列的10个数据进行缩放。体重和年龄同理。这是一种“列缩放”。

而layer方向相反，它针对的是每一行进行缩放。即只看一笔数据，算出这笔所有特征的均值与方差再缩放。这是一种“行缩放”。

细心的你已经看出来，layer normalization 对所有的特征进行缩放，这显得很没道理。我们算出一行这【身高、体重、年龄】三个特征的均值方差并对其进行缩放，事实上会因为特征的量纲不同而产生很大的影响。但是BN则没有这个影响，因为BN是对一列进行缩放，一列的量纲单位都是相同的。

那么我们为什么还要使用LN呢？因为NLP领域中，LN更为合适。

如果我们将一批文本组成一个batch，那么BN的操作方向是，对每个位置的词在batch维度进行操作。但语言文本的复杂性是很高的，任何一个词都有可能放在初始位置，而且每个句子长度不一，且词序可能并不影响我们对句子的理解。而BN是针对每个位置进行缩放，这不符合NLP的规律。

而LN则是针对一句话进行缩放的，且LN一般用在第三维度，如[batchsize, seq_len, dims]中的dims，一般为词向量的维度，或者是RNN的输出维度等等，这一维度各个特征的量纲应该相同。因此也不会遇到上面因为特征的量纲不同而导致的缩放问题。

批标准化（Batch Normalization，BN）解决的问题

是为了克服神经网络加深导致难以训练而诞生的，随着神经网络深度加深，训练起来就会越来越困难，收敛速度回很慢，常常会导致梯度弥散问题(Vanishing Gradient Problem)。

解决办法：一般是根据训练样本和目标样本的比例对训练样本做一个矫正。所以，通过引入Batch Normalization来标准化某些层或者所有层的输入，从而固定每层输入信息的均值和方差。

方法：Batch Normalization一般用在非线性映射(激活函数)之前，对x=Wu+b做标准化，是结果(输出信号各个维度)的均值为0，方差为1。让每一层的输入有一个稳定的分布会有利于网络的训练。

一般来说卷积，BN，激活层，Dropout层的相对顺序如：->CONV/FC -> BatchNorm -> ReLu(or other activation) -> Dropout -> CONV/FC ->;BN要比Dropout效果好，Dropout在慢慢被抛弃。

优点：Batch Normalization通过标准化让激活函数分布在线性区间，结果就是加大了梯度，让模型更大胆的进行梯度下降，具有如下优点：

加大搜索的步长，加快收敛的速度；
更容易跳出局部最小值；
破坏原来的数据分布，一定程度上缓解了过拟合

因此，在遇到神经网络收敛速度很慢或梯度爆炸(Gradient Explore)等无法训练的情况系啊，都可以尝试用Batch Normalization来解决。

BN的缺陷

缺陷如下：

1、BN是在batch size样本上各个维度做标准化的，所以size越大肯定越能得出合理的μ和σ来做标准化，因此BN比较依赖size的大小。
2、在训练的时候，是分批量进行填入模型的，但是在预测的时候，如果只有一个样本或者很少量的样本来做inference，这个时候用BN显然偏差很大，例如在线学习场景。
3、RNN是一个动态的网络，也就是size是变化的，可大可小，造成多样本维度都没法对齐，所以不适合用BN。

LN带来的优势：

1、Layer Normalization是每个样本内部做标准化，跟size没关系，不受其影响。
2、RNN中LN也不受影响，内部自己做标准化，所以LN的应用面更广。

Inference

[0] cnblogs.com/gczr/p/12597344.html
[1] zhuanlan.zhihu.com/p/74516930
[2] https://blog.csdn.net/m0_37870649/article/details/82025238

小Aer

关注

23
点赞
踩
116

收藏

觉得还不错? 一键收藏
打赏
4
评论
BN与LN的区别

BN与LN的区别主要区别在于 normalization的方向不同！Batch 顾名思义是对一个batch进行操作。假设我们有 10行 3列的数据，即我们的batchsize = 10，每一行数据有三个特征，假设这三个特征是【身高、体重、年龄】。那么BN是针对每一列（特征）进行缩放，例如算出【身高】的均值与方差，再对身高这一列的10个数据进行缩放。体重和年龄同理。这是一种“列缩放”。而layer方向相反，它针对的是每一行进行缩放。即只看一笔数据，算出这笔所有特征的均值与方差再缩放。这是一种“行缩放”
复制链接

扫一扫