Batch Normalization总结

最新推荐文章于 2024-07-04 20:26:48 发布

算了没办法

最新推荐文章于 2024-07-04 20:26:48 发布

阅读量397

点赞数 1

文章标签：深度学习

本文链接：https://blog.csdn.net/m0_54487331/article/details/112974785

版权

Batch Normalization

为什么要进行BN呢？
BN原理
BN算法过程
BN的作用
BN存在的问题

Batch normalization是在batch上，对batch size（即样本数）、feature map特征图的高度、宽度做归一化，而保留通道数的维度。BN对较小的batch size效果不好。BN适用于固定深度的前向神经网络，如CNN，不适用于RNN。

GN是group normalization，将channel分组，然后再做归一化。
在这里插入图片描述
每个子图表示一个特征图，其中N为批量，C为通道，（H，W）为特征图的高度和宽度。通过蓝色部分的值来计算均值和方差，从而进行归一化。

如果把特征图 $\in \mathbb{R}^{N \times C \times H \times W}$ 比喻成一摞书，这摞书总共有 N 本，每本有 C 页，每页有 H 行，每行有W 个字符。

BN 求均值时，相当于把这些书按页码一一对应地加起来（例如第1本书第36页，第2本书第36页…），再除以每个页码下的字符总数：N×H×W，因此可以把 BN 看成求“平均书”的操作（注意这个“平均书”每页只有一个字），求标准差时也是同理。

为什么要进行BN呢？

在深度神经网络训练的过程中，通常以输入网络的每一个mini-batch进行训练，这样每个batch具有不同的分布，使模型训练起来特别困难。
在训练的过程中，激活函数会改变各层数据的分布，随着网络的加深，这种改变（差异）会越来越大，使模型训练起来特别困难，收敛速度很慢，会出现梯度消失的问题。

BN原理

针对每个神经元，使数据在进入激活函数之前，沿着通道计算每个batch的均值、方差，‘强迫’数据保持均值为0，方差为1的正态分布，避免发生梯度消失。具体来说，就是把第1个样本的第1个通道，加上第2个样本第1个通道 … 加上第 N 个样本第1个通道，求平均，得到通道 1 的均值（注意是除以 N×H×W 而不是单纯除以 N，最后得到的是一个代表这个 batch 第1个通道平均值的数字，而不是一个 H×W 的矩阵）。求通道 1 的方差也是同理。对所有通道都施加一遍这个操作，就得到了所有通道的均值和方差。

BN的使用位置：全连接层或卷积操作之后，激活函数之前。