构建Transformer框架，你必须了解残差连接和归一化

最新推荐文章于 2025-04-06 00:00:00 发布

AI大模型-派大星

最新推荐文章于 2025-04-06 00:00:00 发布

阅读量1.1k

点赞数 20

文章标签： transformer 深度学习人工智能语言模型 ai agi LLM

本文链接：https://blog.csdn.net/2401_85327249/article/details/144685507

版权

前言

在Transformer框架中，残差连接（Residual Connections）和归一化层（Layer Normalization）是两个重要的组成部分，它们通常组合成一个整体作用于模型的各个层次中，从而提高模型的训练效率和综合性能。本篇我将为各位同学介绍一下残差连接和归一化层，目的是让各位明白如何在Transformer框架中构建残差连接和归一化层。

01、作用

在上图的Transformer框架中，残差连接和层归一化通常作为一个整体单元出现在编码器与解码器的每一层中。

如下图所示，每个层都会先进行自注意力机制或交叉注意力机制的处理，然后进行残差连接和层的归一化。接着进行前馈神经网络处理，并再次进行残差连接和层归一化。

这样的设计使得Transformer模型同时利用残差和层归一化的优点，有效地处理长序列数据，显著地提升自然语言处理任务的表现。

残差连接和归一化层（通常是层归一化，Layer Normalization）扮演着重要的角色，它们在模型中的具体作用如下：

残差连接（Residual Connections）

缓解梯度消失问题：在深度网络中，随着层数的增加，梯度可能会变得非常小，导致训练困难。残差连接通过将输入直接添加到输出，提供了一条“捷径”通道，从而帮助梯度更有效地传播。
加速收敛：残差连接使得网络能够学习到恒等映射，从而在某些情况下可以更快地收敛。
提高模型表达能力：通过允许信息在层与层之间直接流动，残差连接使得模型能够更加灵活地学习复杂的表示。

归一化层（Layer Normalization）

稳定训练过程：归一化层通过对激活值进行标准化处理，减少了不同层之间的输入分布变化，从而提高了训练的稳定性。
加速收敛：通过减少内部协变量偏移（Internal Covariate Shift），归一化层能够加速训练过程，使得模型更快地收敛。
提高模型性能：通过提供更稳定的训练信号，归一化层能够提高模型的最终性能，尤其是在较深的网络中。

总的来说，残差连接和归一化层的结合使得Transformer能够更有效地进行训练，并提高了模型的性能和稳定性。两者的结合是现代深度学习架构成功的重要因素之一。

02、如何构建

以下是一段使用 PyTorch 实现的 Transformer 中的残差连接和归一化层的代码示例。

import torch
import torch.nn as nn
import torch.nn.functional as F
class TransformerBlock(nn.Module):
    """
    一个包含残差连接和归一化层的Transformer块。
    """
    def __init__(self, d_model, d_ff, num_heads):
        """
        初始化Transformer块。
        参数:
        d_model (int): 输入的特征维度。
        d_ff (int): 前馈网络的维度。
        num_heads (int): 多头自注意力的头数。
        """
        super(TransformerBlock, self).__init__()
        self.self_attn = nn.MultiHeadAttention(d_model, num_heads)  # 多头自注意力层
        self.norm1 = nn.LayerNorm(d_model)  # 层归一化层
        self.ffn = nn.Sequential(
            nn.Linear(d_model, d_ff),  # 第一个线性层
            nn.ReLU(),  # ReLU激活函数
            nn.Linear(d_ff, d_model)  # 第二个线性层
        )
        self.norm2 = nn.LayerNorm(d_model)  # 层归一化层
        self.dropout = nn.Dropout(0.1)  # Dropout层，用于正则化
    def forward(self, x):
        """
        前向传播函数。
        参数:
        x (Tensor): 输入张量。
        返回:
        out (Tensor): 输出张量。
        """
        # 自注意力层，加上残差连接和归一化
        attn_output = self.self_attn(x, x, x)[0]
        attn_output = self.dropout(attn_output)
        out = self.norm1(x + attn_output)  # 残差连接和归一化
        # 前馈网络，加上残差连接和归一化
        ffn_output = self.ffn(out)
        ffn_output = self.dropout(ffn_output)
        out = self.norm2(out + ffn_output)  # 残差连接和归一化
        return out
# 示例使用
d_model = 512  # 输入的特征维度
d_ff = 2048  # 前馈网络的维度
num_heads = 8  # 多头自注意力的头数
# 创建Transformer块实例
transformer_block = TransformerBlock(d_model, d_ff, num_heads)
# 创建一个随机输入张量
x = torch.rand((32, 10, d_model))  # (batch_size, sequence_length, d_model)
# 前向传播
output = transformer_block(x)

在这段代码中，我们定义了一个 `TransformerBlock` 类，它包含了自注意力层、两个层归一化层和前馈网络。每个子层的输出都会与输入相加，形成残差连接，然后进行归一化。这样的设计有助于模型的训练和泛化能力。

03、参数的影响

在Transformer架构中，构建残差连接和归一化层时，有几个关键参数会影响到模型的性能。

层数（Depth）：Transformer的层数会影响模型的表达能力。较深的模型可以捕捉更复杂的特征，但也可能导致训练困难和过拟合。
残差连接的使用：残差连接通常用于避免深层网络中的梯度消失问题。在每一层中是否使用残差连接，以及如何设计残差连接（如是否添加激活函数）都会影响模型的性能。
归一化类型：在Transformer中，常用的是层归一化（Layer Normalization）和批归一化（Batch Normalization）。归一化层的类型会影响训练的稳定性和收敛速度。
归一化的位置：归一化层放置的位置（在残差连接之前或之后）也会影响模型的性能。一般来说，Transformer中通常是在残差连接之后进行归一化。
学习率：在训练过程中设置的学习率以及学习率调度策略会对模型的收敛速度和最终性能产生重大影响。
初始化方法：权重初始化方法会影响模型的训练效果，避免出现梯度消失或梯度爆炸的问题。
激活函数：选择不同的激活函数（如ReLU、GeLU等）可能会对模型的性能和训练稳定性产生影响。
正则化：使用dropout等正则化技术可以帮助防止过拟合，影响模型的泛化能力。
优化器：不同的优化器（如Adam、SGD等）及其参数设置（如动量、β参数等）也会影响模型的训练效果和收敛速度。
输入数据的预处理：输入数据的预处理方式（如归一化、标准化等）同样会影响模型的性能。