BatchNorm和LayerNorm的比较

最新推荐文章于 2024-05-31 11:03:38 发布

Good@dz

最新推荐文章于 2024-05-31 11:03:38 发布

阅读量6.2k

点赞数 11

分类专栏：深度学习基础文章标签： batch 归一化

本文链接：https://blog.csdn.net/qq_42178122/article/details/117285045

版权

深度学习基础专栏收录该内容

73 篇文章 5 订阅

订阅专栏

BatchNorm：batch方向做归一化，算NHW的均值，对小batchsize效果不好；BN主要缺点是对batchsize的大小比较敏感，由于每次计算均值和方差是在一个batch上，所以如果batchsize太小，则计算的均值、方差不足以代表整个数据分布
LayerNorm：channel方向做归一化，算CHW的均值，主要对RNN作用明显；
在这里插入图片描述

batch normalization对一个神经元的batch所有样本进行标准化，layer normalization对一个样本同一层所有神经元进行标准化，前者纵向 normalization，后者横向 normalization。

在这里插入图片描述

batch normalization的缺点：因为统计意义，在batch_size较大时才表现较好；不易用于RNN；训练和预测时用的统计量不同等。
layer normalization就比较适合用于RNN和单条样本的训练和预测。但是在batch_size较大时性能时比不过batch normalization的。

以batchnorm为sample

input为2 x 3 x 4 x 5,其中,2：batch中样本数量,3：每个样本通道数,4：每个样本行数,5：每个样本列数
调用代码如下：

bn  = torch.nn.BatchNorm2d(3) # 参数3表示特征通道数
out = bn(input)

input:
在这里插入图片描述

out:
在这里插入图片描述
【计算过程】
torch.nn.BatchNorm2d对每一特征通道进行normalize，因此会计算出所有样本每一通道的均值和方差，以第一通道为例

mean_channel1   = torch.mean(input[:, 0, :, :]) # = 142.8500
normed_channel2 = torch.var(input[:,0, :, :], unbiased=False) # = 218.5775
                                              # unbiased参数需要设置为False，否则
                                              # 计算出方差为无偏估计，与当前结果不同
                                              # 第二、第三通道相同设置
normed_result_channel1 = (input[:, 0, :, :]-mean_channel1)/((var_channel1+1e-5)**0.5)

输出结果如下，与torch.nn.BatchNorm2d结果一致
[[[-0.1251, -0.3280, 0.0101, 0.0778, 0.1454],
[-0.3280, -0.2604, 0.0101, 0.0101, 0.1454],
[-0.5310, -0.3957, -0.3280, -0.3957, 0.2131],
[ 6.0977, -0.3957, -0.8692, -0.5310, 0.0101]],

[[-0.1251, -0.3280, -0.1928, -0.3280, -0.2604],
[-0.1251, -0.1928, -0.1251, -0.0575, -0.1251],
[-0.1928, -0.1251, -0.1251, 0.0778, -0.0575],
[-0.1251, 0.0101, 0.0101, 0.0778, 0.0778]]]

参考链接：https://blog.csdn.net/u012633319/article/details/109107260

Good@dz

关注

11
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
BatchNorm和LayerNorm的比较

BatchNorm：batch方向做归一化，算NHW的均值，对小batchsize效果不好；BN主要缺点是对batchsize的大小比较敏感，由于每次计算均值和方差是在一个batch上，所以如果batchsize太小，则计算的均值、方差不足以代表整个数据分布LayerNorm：channel方向做归一化，算CHW的均值，主要对RNN作用明显；batch normalization对一个神经元的batch所有样本进行标准化，layer normalization对一个样本同一层所有神经元进行标准化，前者
复制链接

扫一扫

专栏目录