【PyTorch】torch.nn.LayerNorm 类：对输入进行层规范化（Layer Normalization）

彬彬侠

已于 2025-02-13 15:55:54 修改

阅读量2k

点赞数 26

分类专栏： PyTorch基础文章标签： LayerNorm 层归一化 transformer pytorch python NLP 自然语言处理

于 2025-02-13 12:58:41 首次发布

本文链接：https://blog.csdn.net/u013172930/article/details/145609624

版权

PyTorch基础专栏收录该内容

101 篇文章

订阅专栏

`torch.nn.LayerNorm`

torch.nn.LayerNorm 是 PyTorch 中用于规范化的一个层，通常用于深度神经网络中，它的功能是对输入进行层规范化（Layer Normalization）。该规范化方法的主要目的是加速训练并提高模型的稳定性。

注：我习惯称标准化，但大部分人都称归一化，实际它们名称有本质区别。所以这里我们使用规范化。

1. 什么是层规范化（Layer Normalization）？

层规范化是对输入的每一层（即每个神经网络的输入单元）进行标准化处理，使得它们的分布在训练过程中保持一致。不同于批量规范化（Batch Normalization）是对一个批次的数据进行规范化，层规范化是对每个样本独立进行规范化。

层规范化的作用：

消除不同特征间的偏差。
降低训练过程中的协方差偏移（covariate shift）。
加速训练过程。
稳定模型的训练，尤其是在使用深度模型时。

2. 层规范化的公式

给定一个输入向量 $(x_1, x_2, \dots, x_d)$ ，每一维输入的规范化操作如下：

$\hat{x}_i = \frac{x_i - \mu}{\sigma + \epsilon}$

其中：

$\mu$ 是输入向量 $x$ 的均值： $\mu = \frac{1}{d} \sum_{i=1}^{d} x_i$
$\sigma$ 是输入向量 $x$ 的标准差： $\sigma = \sqrt{\frac{1}{d} \sum_{i=1}^{d} (x_i - \mu)^2}$
$\epsilon$ 是一个小常数，用于防止除零错误。
$\hat{x}_i$ 是规范化后的输出。

规范化后，我们可以通过学习的缩放参数 $\gamma$ 和偏移参数 $\beta$ 对输出进行调整：

$y_i = \gamma \hat{x}_i + \beta$

其中：

$\gamma$ 是缩放参数，用于控制规范化后的输出的尺度。
$\beta$ 是偏移参数，用于调整规范化后的输出的平移。

3. `torch.nn.LayerNorm` 的使用

torch.nn.LayerNorm 是一个实现层规范化的 PyTorch 模块。它对输入张量的最后一个维度（即特征维度）进行规范化。

3.1 构造函数

torch.nn.LayerNorm(normalized_shape, eps=1e-5, elementwise_affine=True)

normalized_shape：指定需要规范化的维度，通常是输入的特征维度（例如，输入张量的最后一维）。
eps：防止除零错误的小常数，默认为 $1 e - 5$ 。
elementwise_affine：是否使用可学习的缩放和偏移参数 $\gamma$ 和 $\beta$ 。默认为 True，即使用可学习的参数。

3.2 示例

假设我们有一个输入张量，并希望对其应用 LayerNorm。

import torch
import torch.nn as nn

# 创建一个 LayerNorm 层，规范化输入的最后一维（即特征维度）
layer_norm = nn.LayerNorm(normalized_shape=5)

# 输入张量的形状是 (batch_size, features)
x = torch.randn(3, 5)  # 假设 batch_size=3, features=5

# 对输入张量进行层规范化
output = layer_norm(x)

print("Input:")
print(x)
print("Normalized Output:")
print(output)

解释：

normalized_shape=5 表示规范化操作会在每个样本的特征维度（大小为 5）上进行，而不是在批次维度上。
output 是规范化后的结果。

3.3. 输出与学习的参数

LayerNorm 在进行规范化时，若 elementwise_affine=True，则会学习缩放参数 $\gamma$ 和偏移参数 $\beta$ 。这两个参数会初始化为 1 和 0，并在训练过程中进行更新。

# 查看学习的缩放参数（gamma）和偏移参数（beta）
print("Gamma (scale parameters):")
print(layer_norm.weight)
print("Beta (shift parameters):")
print(layer_norm.bias)

4. 层规范化与批量规范化的对比

特性	层规范化	批量规范化
规范化维度	每个样本独立地对每个特征进行规范化	对整个批次的所有样本进行规范化
规范化方法	在每个样本的所有特征上计算均值和标准差	在一个批次的所有样本的相同特征上计算均值和标准差
适用场景	适用于循环神经网络（RNN）等顺序任务，或者批量大小小的情况	适用于批量训练和卷积神经网络（CNN）等结构
并行化	更易并行，因为每个样本都可以独立规范化	需要依赖整个批次的统计信息，不能完全并行

批量规范化的缺点

在小批量或顺序任务（如 RNN）中，批量规范化可能不适用，因为它依赖于整个批次的统计信息。
批量规范化不适合小批量或变长序列的训练。

层规范化的优势

不依赖于批量大小，可以在小批量和变长序列中表现良好。
适用于循环神经网络（RNN）和自注意力机制（如 Transformer）等结构。

5. 代码示例：使用 LayerNorm 改善训练

假设你正在训练一个简单的神经网络，并希望使用 LayerNorm 来加速训练过程。

import torch
import torch.nn as nn
import torch.optim as optim

# 定义一个简单的神经网络
class SimpleNet(nn.Module):
    def __init__(self):
        super(SimpleNet, self).__init__()
        self.fc1 = nn.Linear(10, 20)
        self.layer_norm = nn.LayerNorm(20)  # 在 fc1 的输出上应用 LayerNorm
        self.fc2 = nn.Linear(20, 2)
        
    def forward(self, x):
        x = self.fc1(x)
        x = self.layer_norm(x)  # 应用 LayerNorm
        x = self.fc2(x)
        return x

# 创建模型实例
model = SimpleNet()

# 创建一个随机输入
x = torch.randn(5, 10)  # batch_size=5, features=10

# 前向传播
output = model(x)
print("Output:", output)