归一化总结

最新推荐文章于 2024-05-06 10:23:59 发布

saoqi_boy

最新推荐文章于 2024-05-06 10:23:59 发布

阅读量1.2k

点赞数

分类专栏：人工智能文章标签：深度学习机器学习神经网络

本文链接：https://blog.csdn.net/saoqi_boy/article/details/129894148

版权

人工智能专栏收录该内容

4 篇文章 1 订阅

订阅专栏

文章目录

1. 批归一化（Batch Normalization，BN）
2. 组归一化（Group Normalization，GN）：
3. 实例归一化（Instance Normalization，IN）：
4. 层归一化（Layer Normalization，LN）：
5. 权重归一化（Weight Normalization，WN）：
6. 局部响应归一化（Local Response Normalization，LRN）：
7. 通道间归一化（Cross-Channel Normalization，CCN）：
8. 跨通道局部响应归一化（Cross-Map Local Response Normalization，CrossMapLRN）：

1. 批归一化（Batch Normalization，BN）

BN层在训练时对每个mini-batch的输入数据进行归一化操作，使得每个神经元的激活值在数据分布上更加稳定。BN可以提高网络训练速度和效果，并具有正则化作用，能够一定程度上防止过拟合。其数学公式如下：
在这里插入图片描述
其中， $x_i$ 表示mini-batch中第 $i$ 个样本的输入数据， $\mathrm{E}[x]$ 表示mini-batch的均值， $\mathrm{Var}[x]$ 表示mini-batch的方差， $\epsilon$ 是一个非常小的常数（如 $10^{-5}$ ），以防止方差为零的情况。

在训练时，BN层还需要维护一个移动平均值和移动方差，用于在推理时对输入数据进行归一化操作。

torch.nn.BatchNorm1d()、torch.nn.BatchNorm2d()、torch.nn.BatchNorm3d()

2. 组归一化（Group Normalization，GN）：

GN层将每个通道分成若干个组，然后对每个组内的数据进行归一化，从而使得每个组内的激活值相对独立。GN适用于较小的批量大小或通道数较少的情况，并且在训练和测试时具有相同的效果。其数学公式如下：
在这里插入图片描述
其中， $x_{n,c,h,w}$ 表示输入数据的第 $n$ 个样本的第 $c$ 个通道、第 $h$ 行、第 $w$ 列的值， $G$ 表示组数， $\mathrm{E}[x_{n,G,h,w}]$ 和 $\mathrm{Var}[x_{n,G,h,w}]$ 分别表示第 $n$ 个样本在第 $G$ 个组内的均值和方差。
torch.nn.GroupNorm()

3. 实例归一化（Instance Normalization，IN）：

IN层在每个样本的每个通道上进行归一化，从而增强了特征之间的独立性。IN通常用于图像风格迁移等任务中，可以减少模型的过拟合风险。其数学公式如下：
在这里插入图片描述
其中， $x_{n,c,h,w}$ 表示输入数据的第 $n$ 个样本的第 $c$ 个通道、第 $h$ 行、第 $w$ 列的值， $\mathrm{E}[x_{n,c}]$ 和 $\mathrm{Var}[x_{n,c}]$ 分别表示第 $n$ 个样本在第 $c$ 个通道上的均值和方差。
torch.nn.InstanceNorm1d()、torch.nn.InstanceNorm2d()、torch.nn.InstanceNorm3d()

4. 层归一化（Layer Normalization，LN）：

LN层在每个样本的每个特征维度上进行归一化，从而增强了特征之间的独立性，使得模型对输入数据的小扰动更加鲁棒。LN通常用于自然语言处理等任务中，可以缓解梯度消失问题，并且在训练和测试时具有相同的效果。其数学公式如下：
在这里插入图片描述
其中， $x_i$ 表示输入数据在第 $i$ 个特征维度上的值， $\mathrm{E}[x]$ 表示在该特征维度上的均值， $\mathrm{Var}[x]$ 表示在该特征维度上的方差， $\epsilon$ 是一个非常小的常数（如 $10^{-5}$ ），以防止方差为零的情况。
torch.nn.LayerNorm()

5. 权重归一化（Weight Normalization，WN）：

WN是一种对网络参数进行归一化的方法，可以将网络中的权重矩阵分解为模和方向两个部分，从而增强模型对输入数据的平移不变性和旋转不变性。WN通常用于循环神经网络等模型中，可以加速模型收敛速度并减少过拟合风险。其数学公式如下：
在这里插入图片描述
其中， $v$ 表示网络的权重向量， $∣ v ∣$ 表示该向量的模长。WN层的归一化操作在每个迭代步骤中都会进行，因此可以看作是对网络的参数进行动态的归一化操作。
torch.nn.utils.weight_norm()

6. 局部响应归一化（Local Response Normalization，LRN）：

LRN层在每个位置的通道上进行归一化，对输入数据在局部邻域内进行响应归一化，使得在相邻的特征图（Feature Map）上得到的响应可以被归一化，而不仅仅是在单个特征图上进行归一化。这样可以增强模型对输入数据中不同特征之间的区分度，并防止激活值过大或过小的情况。，其数学公式如下：
在这里插入图片描述
其中， $x_{i,c}$ 表示输入数据在第 $i$ 个位置的第 $c$ 个通道上的值， $C$ 表示通道数， $n$ 表示归一化的范围， $k,\alpha,\beta$ 是超参数，用于控制归一化的强度和范围。可以看出，LRN层通过将输入数据在一个局部邻域内进行平方和计算和除法操作，实现了对输入数据在不同通道上的归一化操作。
torch.nn.LocalResponseNorm()

7. 通道间归一化（Cross-Channel Normalization，CCN）：

CCN层在每个位置的所有通道上进行归一化，其数学公式如下：
在这里插入图片描述
其中， $x_{i,c}$ 表示输入数据在第 $i$ 个位置的第 $c$ 个通道上的值， $C$ 表示通道数， $n$ 表示归一化的范围， $\alpha$ 是一个超参数，用于控制归一化的强度和范围。
torch.nn.CrossChannelNorm()

8. 跨通道局部响应归一化（Cross-Map Local Response Normalization，CrossMapLRN）：

CrossMapLRN层在每个位置的所有通道上进行归一化，CrossMapLRN层将每个特征映射上的值除以一个局部响应归一化的因子，同时还会将不同特征映射之间的值进行交叉通道归一化，以此来增强模型的泛化性能和鲁棒性。其数学公式如下：
在这里插入图片描述
其中， $x_{i,c}$ 表示输入数据在第 $i$ 个位置的第 $c$ 个通道上的值， $C$ 表示通道数， $n$ 表示归一化的范围， $k,\alpha,\beta$ 是超参数，用于控制归一化的强度和范围。CrossMapLRN与LRN的区别在于，CrossMapLRN在归一化时只考虑同一位置的不同通道间的响应，而不考虑不同位置的响应。
torch.nn.CrossMapLRN2d()