文章目录
归一化技术可以很好地,缓解梯度消失/爆炸问题,并有助于更快地收敛,也是一种正则化技术防止过拟合
实际中会看到好多归一化
比如BatchNorm,LayerNorm,GroupNorm,InstanceNorm
1 四种归一化方式对比
这四种归一化方法在神经网络中都有各自的应用场景和特点:
-
BatchNorm(批归一化):
- 应用场景:通常用于卷积神经网络(CNN)和全连接神经网络(DNN)中。
- 工作原理:对每个特征通道在每个训练批次上进行归一化,使得均值接近0,方差接近1。
- 优点:加速训练收敛,减少梯度消失/爆炸问题,具有轻微的正则化效果。
- 示例:在训练图像分类模型时,可以使用
nn.BatchNorm2d
对卷积层的输出进行归一化。
-
LayerNorm(层归一化):
- 应用场景:适用于循环神经网络(RNN)和Transformer等序列模型中。
- 工作原理:对每个样本的每个特征通道进行归一化,使得均值接近0,方差接近1。
- 优点:不受批量大小影响,适用于小批量大小和单个样本的情况。
- 示例:在Transformer的每个注意力子层后应用
nn.LayerNorm
对特征进行归一化。
-
GroupNorm(组归一化):
- 应用场景:适用于通道较少的情况,例如较小的卷积神经网络或分组卷积中。
- 工作原理:将通道分成多个组,在每个组内对通道进行归一化,每个组有自己的均值和方差。
- 优点:不受批量大小影响,适用于小批量大小和通道较少的情况。
- 示例:在较小的卷积神经网络中,可以使用
nn.GroupNorm
对通道进行归一化。
-
InstanceNorm(实例归一化):
- 应用场景:适用于风格迁移、超分辨率等需要保留样本间信息的任务中。
- 工作原理:对每个样本的每个通道进行归一化,使得每个样本的均值接近0,方差接近1。
- 优点:不受批量大小影响,保留了样本间的信息。
- 示例:在风格迁移网络中,可以使用
nn.InstanceNorm2d
对特征进行归一化。
综上所述,选择适当的归一化方法取决于具体的神经网络架构、任务需求和数据特征。
2 代码实践
2.1 BatchNorm(批归一化)
nn.BatchNorm2d
是PyTorch中用于实现批归一化(Batch Normalization)的类,适用于二维输入,通常用于卷积神经网络(CNN)中。它将输入沿着指定的维度(通常是通道维度)进行归一化,使得每个通道的均值接近0,方差接近1。
nn.BatchNorm2d
的主要参数包括:
num_features
:输入特征的数量,通常为输入数据的通道数。eps
:为保证数值稳定性而添加到方差的小值。momentum
:用于计算 running mean 和 running variance 的动量。
下面是一个示例代码,演示了如何使用nn.BatchNorm2d
对输入张量进行归一化:
import torch
import torch.nn as nn
# 创建一个输入张量,大小为(batch_size, num_channels, height, width)
input_tensor = torch.randn(2, 3, 3, 3)
# 创建一个BatchNorm2d层,对每个通道进行归一化
batch_norm = nn.BatchNorm2d(3)
# 对输入张量进行归一化
output = batch_norm(input_tensor)
print(output.shape)
在这个示例中,nn.BatchNorm2d(3)
表示对输入张量的每个通道进行归一化,其中3
是输入张量的通道数。最终输出的形状与输入张量相同。
2.2 LayerNorm(层归一化)
nn.LayerNorm
是PyTorch中用于实现层归一化(Layer Normalization)的类,适用于多维输入。与批归一化不同,层归一化是在每个样本的每个通道上进行归一化,而不是在整个批次上。这使得它更适合用于循环神经网络(RNN)等序列模型中,因为它不依赖于批次大小,并且对单个样本也有效。
nn.LayerNorm
的主要参数包括:
normalized_shape
:输入张量的形状,通常是一个整数或整数元组,表示输入张量的特征维度。eps
:为保证数值稳定性而添加到方差的小值。
下面是一个示例代码,演示了如何使用nn.LayerNorm
对输入张量进行归一化:
import torch
import torch.nn as nn
# 创建一个输入张量,大小为(batch_size, num_channels, height, width)
input_tensor = torch.randn(2, 3, 3, 3)
# 创建一个LayerNorm层,对每个样本的每个通道进行归一化
layer_norm = nn.LayerNorm([3, 3, 3])
# 对输入张量进行归一化
output = layer_norm(input_tensor)
print(output.shape)
在这个示例中,nn.LayerNorm([3, 3, 3])
表示对输入张量的每个样本的每个通道进行归一化,其中[3, 3, 3]
是输入张量的特征维度。最终输出的形状与输入张量相同。
2.3 InstanceNorm(实例归一化)
nn.InstanceNorm2d
是PyTorch中用于实现实例归一化(Instance Normalization)的类,适用于二维输入,通常用于风格迁移、超分辨率等需要保留样本间信息的任务中。与批归一化不同,实例归一化在每个样本的每个通道上进行归一化,而不是在整个批次上。这使得它更适合保留样本间的信息,并且不依赖于批次大小。
nn.InstanceNorm2d
的主要参数包括:
num_features
:输入特征的数量,通常为输入数据的通道数。eps
:为保证数值稳定性而添加到方差的小值。
下面是一个示例代码,演示了如何使用nn.InstanceNorm2d
对输入张量进行归一化:
import torch
import torch.nn as nn
# 创建一个输入张量,大小为(batch_size, num_channels, height, width)
input_tensor = torch.randn(2, 3, 3, 3)
# 创建一个InstanceNorm2d层,对每个样本的每个通道进行独立的归一化
instance_norm = nn.InstanceNorm2d(3)
# 对输入张量进行归一化
output = instance_norm(input_tensor)
print(output.shape)
在这个示例中,nn.InstanceNorm2d(3)
表示对输入张量的每个样本的每个通道进行独立的归一化,其中3
是输入张量的通道数。最终输出的形状与输入张量相同。
2.4 GroupNorm(组归一化)
torch.nn.GroupNorm
是PyTorch中的一个归一化层,用于在神经网络中标准化输入。与torch.nn.BatchNorm
(批标准化)不同,GroupNorm
将输入分成多个组,并在每个组内进行标准化。这种归一化方法在小批量大小下也能保持性能,并且对于通道数较少的情况更有效。以下是GroupNorm
的主要特点和参数:
num_groups
(int):将输入通道分成多少组。每个组内的通道会被一起归一化。num_channels
(int):输入张量的通道数。eps
(float):用于数值稳定性的epsilon值,避免除以零的情况。
当分组数和通道数相同的时候,相当于调用InstanceNorm
当分组数为1的时候,相当于调用LayerNorm
input = torch.randn(20, 6, 10, 10)
# 6个通道分为3个
m = nn.GroupNorm(3, 6)
#6个通道分为3个 (等价于InstanceNorm)
m = nn.GroupNorm(6, 6)
# 6个通道分为1个 (等价于LayerNorm)
m = nn.GroupNorm(1, 6)
output = m(input)
使用示例:
import torch
import torch.nn as nn
# 创建一个输入张量,大小为(batch_size, num_channels, height, width)
input_tensor = torch.randn(2, 6, 3, 3)
# 创建一个GroupNorm层,将通道分成2组
group_norm = nn.GroupNorm(2, 6)
# 对输入张量进行标准化
output = group_norm(input_tensor)
print(output.shape)
在上面的示例中,GroupNorm
层将输入张量的通道分成了2组,然后在每个组内进行标准化。