理解Transformer架构：从“编码器-解码器“到自注意力机制

Tee xm

于 2025-05-17 02:30:00 发布

阅读量1.2k

点赞数 31

文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/weixin_43236925/article/details/147891636

版权

理解Transformer架构：从"编码器-解码器"到自注意力机制

引言：为什么需要了解Transformer？

在ChatGPT等大语言模型风靡全球的今天，其核心架构Transformer正成为每一位开发者必须理解的基础知识。本文将从开发者的实践视角出发，通过代码示例和架构图解，带您深入理解这一革命性的神经网络架构。无论您是刚接触深度学习，还是已有传统神经网络经验的技术人员，都能通过本文建立清晰的认知框架。

一、传统序列模型的局限性

1.1 RNN的困境

在Transformer出现之前，循环神经网络（RNN）是处理序列数据的标准方案。典型的RNN结构如下：

class SimpleRNN(nn.Module):
    def __init__(self, input_size, hidden_size):
        super().__init__()
        self.rnn = nn.RNN(input_size, hidden_size, batch_first=True)
    
    def forward(self, x):
        out, _ = self.rnn(x)  # x shape: (batch, seq_len, features)
        return out

但这种结构存在明显缺陷：

梯度消失问题：当处理长序列时，反向传播时梯度会指数级衰减
顺序依赖：必须逐个处理序列元素，难以并行计算
长程依赖：相距较远的元素难以建立有效联系

1. LSTM的改进与局限

长短期记忆网络（LSTM）通过门控机制缓解了梯度消失问题：

class LSTMModel(nn.Module):
    def __init__(self, input_dim, hidden_dim):
        super().__init__()
        self.lstm = nn.LSTM(input_dim, hidden_dim, batch_first=True)
    
    def forward(self, x):
        out, (h_n, c_n) = self.lstm(x)
        return out

虽然LSTM在机器翻译等任务中表现优异，但其顺序计算的本质限制依然存在。训练一个20层的LSTM网络，即使使用现代GPU也需要数周时间，这严重制约了模型规模的扩展。

二、Transformer的核心突破

2.1 整体架构概览

Transformer的架构创新可以用"三个突破"概括：

全注意力机制：替代传统的循环结构
位置编码：注入序列位置信息
并行计算架构：充分利用现代硬件

2.2 自注意力机制详解

自注意力的核心是计算序列元素间的相关性。给定输入矩阵X，计算过程如下：

def self_attention(Q, K, V):
    d_k = Q.size(-1)
    scores = torch.matmul(Q, K.transpose(-2, -1)) / math.sqrt(d_k)
    attention = torch.softmax(scores, dim=-1)
    return torch.matmul(attention, V)

这个过程可以用图书馆找书来类比：查询（Q）相当于要找的主题，键（K）是书架的标签，值（V）是书籍内容。通过匹配查询和键，找到最相关的值。

2.3 多头注意力机制

多头注意力就像多个专家同时分析数据的不同方面：

class MultiHeadAttention(nn.Module):
    def __init__(self, d_model, num_heads):
        super().__init__()
        self.head_dim = d_model // num_heads
        self.W_q = nn.Linear(d_model, d_model)
        self.W_k = nn.Linear(d_model, d_model)
        self.W_v = nn.Linear(d_model, d_model)
        self.out = nn.Linear(d_model, d_model)
    
    def forward(self, Q, K, V):
        # 分头处理
        Q = self.W_q(Q).view(batch_size, -1, num_heads, self.head_dim)
        K = self.W_k(K).view(batch_size, -1, num_heads, self.head_dim)
        V = self.W_v(V).view(batch_size, -1, num_heads, self.head_dim)
        
        # 各头分别计算注意力
        attention_outputs = [self_attention(q, k, v) for q,k,v in zip(Q,K,V)]
        
        # 合并结果
        concatenated = torch.cat(attention_outputs, dim=-1)
        return self.out(concatenated)

这种设计让模型可以同时关注不同位置的多种模式，比如语法结构和语义关系。

三、关键组件实现解析

3.1 位置编码

Transformer通过正弦函数注入位置信息：

class PositionalEncoding(nn.Module):
    def __init__(self, d_model, max_len=5000):
        super().__init__()
        position = torch.arange(max_len).unsqueeze(1)
        div_term = torch.exp(torch.arange(0, d_model, 2) * (-math.log(10000.0) / d_model))
        pe = torch.zeros(max_len, d_model)
        pe[:, 0::2] = torch.sin(position * div_term)
        pe[:, 1::2] = torch.cos(position * div_term)
        self.register_buffer('pe', pe)
    
    def forward(self, x):
        return x + self.pe[:x.size(1)]

这种编码方式具有两个重要特性：

相对位置关系可以通过三角函数公式表示
可以扩展到训练时未见过的序列长度

3.2 前馈网络

每个Transformer层包含一个全连接前馈网络：

class FeedForward(nn.Module):
    def __init__(self, d_model, d_ff=2048):
        super().__init__()
        self.linear1 = nn.Linear(d_model, d_ff)
        self.linear2 = nn.Linear(d_ff, d_model)
    
    def forward(self, x):
        return self.linear2(F.relu(self.linear1(x)))

这个子网络为模型提供了非线性变换能力，与注意力机制形成功能互补。

四、实践中的Transformer

4.1 训练技巧

学习率预热：前1000步线性增加学习率
标签平滑：防止模型过度自信
梯度裁剪：控制梯度爆炸

optimizer = Adam(model.parameters(), lr=0, betas=(0.9, 0.98), eps=1e-9)
lr_scheduler = LambdaLR(
    optimizer,
    lr_lambda=lambda step: min((step + 1) ** -0.5, (step + 1) * 4000 ** -1.5))

4.2 现代变体比较

模型变体	核心改进	适用场景
BERT	双向注意力	文本分类
GPT	自回归生成	文本生成
Switch-Transformer	专家混合	超大规模训练
Linformer	低秩近似	长序列处理

五、从理解到实践

5.1 简易Transformer实现

class TransformerBlock(nn.Module):
    def __init__(self, d_model, num_heads):
        super().__init__()
        self.attention = MultiHeadAttention(d_model, num_heads)
        self.norm1 = nn.LayerNorm(d_model)
        self.ffn = FeedForward(d_model)
        self.norm2 = nn.LayerNorm(d_model)
    
    def forward(self, x):
        attn_out = self.attention(x, x, x)
        x = self.norm1(x + attn_out)
        ffn_out = self.ffn(x)
        return self.norm2(x + ffn_out)