一文搞懂！Transformer架构的三大变体

最新推荐文章于 2025-04-17 09:39:32 发布

大模型RAG实战

最新推荐文章于 2025-04-17 09:39:32 发布

阅读量1.3k

点赞数 30

文章标签： transformer 架构深度学习人工智能大模型语言模型 agi

本文链接：https://blog.csdn.net/m0_59614665/article/details/145759521

版权

导读

Transformer架构自2017年诞生以来，彻底改变了自然语言处理（NLP）领域。其独特的架构设计衍生出了三大类模型：仅编码器架构、仅解码器架构和编码器-解码器架构。每种架构都有其独特的优势和应用场景，本文将详细解析这三大类架构的特点，并介绍每类架构中的经典模型，带你深入了解Transformer架构的强大之处。

Transformer模型自2017年提出以来，已经成为自然语言处理（NLP）领域的核心技术之一。其架构主要分为三种变体：Decoder-Only、Encoder-Only和Encoder-Decoder，每种变体都有其独特的特点和应用场景。

Decoder-Only 变体

专注于文本生成任务，如语言模型、文本续写等。它使用标准的Transformer Decoder部分，但稍作改动，例如使用因果掩码（Causal Mask）来确保模型在生成文本时只能关注当前和之前的Token。

Encoder-Only 变体

擅长分析文本内容，如文本分类、问答系统等。这类模型只使用Transformer的Encoder部分，能够生成文本的上下文表示，这些表示可以用于各种下游任务。

Encoder-Decoder 变体

特点：融合了编码和解码能力，适用于文本到文本的任务，如机器翻译、文本摘要等。编码器负责理解输入文本，解码器负责生成输出文本。

1. 仅编码器架构（Encoder-only）

1.1 工作原理

仅编码器架构的工作流程如下：

开始：

输入文本。

嵌入层处理：

对输入文本的每个单词或标记进行处理。
将每个单词或标记映射到一个固定维度的向量空间中，形成初始的词嵌入向量。

位置编码添加：

对词嵌入向量添加位置编码。
引入序列中单词的位置信息，使模型能够感知单词的顺序。

多层编码器处理（循环执行，层数根据模型设定）：

将前馈神经网络的输出与该层编码器的输入进行残差连接（相加操作）。
对残差连接后的结果进行层归一化操作，稳定训练过程，防止梯度消失或爆炸。
将经过多头自注意力机制处理后的向量输入前馈神经网络。
进行进一步的特征转换和非线性映射，增强模型的表达能力。
计算查询（Query）、键（Key）和值（Value）之间的点积注意力。
让每个单词关注到序列中其他单词的信息，提取全局上下文特征。
多头自注意力机制模块：
前馈神经网络模块：
残差连接和层归一化：

输出：

经过多层编码器堆叠处理后，输出一个上下文丰富的语义表示向量。

下游任务：

将语义表示向量用于后续的各种下游任务，如文本分类、情感分析等。

结束：

流程结束。

1.2 特点

仅编码器架构具有以下特点：

擅长处理无序任务：由于其能够提取全局上下文信息，对于文本分类、情感分析、命名实体识别等任务表现出色。这些任务通常不需要生成新的文本，而是对输入文本进行分类或标注，仅编码器架构能够很好地满足需求。
并行处理效率高：与传统的循环神经网络（RNN）不同，仅编码器架构不依赖于序列的顺序处理，可以并行计算整个输入序列，大大提高了处理速度，适合处理大规模数据集。
输出固定长度向量：仅编码器架构的输出是一个固定长度的向量表示，无法直接生成文本序列。这使得它在需要生成文本的任务（如机器翻译、文本生成等）中不适用，但在需要对输入文本进行编码和分类的任务中非常有效。
模型结构简单：仅包含编码器部分，结构相对简单，训练和推理过程较为高效，易于实现和优化。

unset
unset1.3 经典模型unset
unset

BERT（Bidirectional Encoder Representations from Transformers）是仅编码器架构的经典模型之一，具有以下特点：

双向上下文编码：BERT通过使用掩码语言模型（Masked Language Model, MLM）和下一句预测（Next Sentence Prediction, NSP）两种预训练任务，能够学习到双向的上下文信息。在MLM任务中，随机掩盖输入序列中的一些单词，然后预测这些被掩盖的单词；在NSP任务中，判断两个句子是否是连续的文本。这种双向编码方式使得BERT能够更好地理解单词在上下文中的含义。
强大的语言理解能力：BERT在多种自然语言处理任务上取得了突破性的成果，如文本分类、问答系统、命名实体识别等。其强大的语言理解能力得益于其能够捕捉到丰富的上下文信息，使得模型对语言的理解更加准确和深入。
预训练与微调相结合：BERT采用预训练加微调的范式。首先在大规模无监督语料上进行预训练，学习通用的语言知识；然后在特定任务上进行微调，通过调整模型的参数来适应具体的任务需求。这种范式大大提高了模型的性能和泛化能力。
广泛的应用：BERT及其变体（如RoBERTa、ALBERT等）被广泛应用于各种自然语言处理任务中，成为许多任务的首选模型。其成功也推动了后续基于Transformer架构的模型的发展和创新。

2. 仅解码器架构（Decoder-only）

2.1 工作原理

仅解码器架构的工作流程如下：

开始：

输入序列。

嵌入层处理：

对输入序列的每个单词或标记进行处理。
将每个单词或标记映射到一个固定维度的向量空间中，得到初始的词嵌入向量。

位置编码添加：

针对词嵌入向量添加位置编码。
引入序列中单词的位置信息，使模型能够感知单词顺序。

多层解码器处理（循环执行，层数根据模型设定）：

将前馈神经网络的输出与该层解码器的输入进行残差连接（相加操作）。
对残差连接后的结果执行层归一化操作，稳定训练过程，避免梯度消失或爆炸。
把经过掩码多头自注意力机制处理后的向量输入到前馈神经网络中。
进行进一步的特征转换和非线性映射，增强模型的表达能力。
计算查询（Query）、键（Key）和值（Value）之间的点积注意力。
运用掩码矩阵，防止模型在计算当前词的注意力分数时访问未来位置的信息，保证生成过程的顺序性。
掩码多头自注意力机制模块：
前馈神经网络模块：
残差连接和层归一化：

输出序列生成：

经过多层解码器堆叠处理后，模型开始逐步生成输出序列。
在每一步生成过程中，模型仅依据已生成的序列信息预测下一个词。
持续预测，直到生成结束标记。

结束：

流程结束，输出完整的输出序列。

t2.2 特点

仅解码器架构具有以下特点：

擅长生成任务：由于其逐步生成输出序列的特性，非常适合文本生成、语言模型等任务，能够生成连贯且符合语言规则的文本。
依赖上下文信息：虽然无法直接处理输入序列，但可以通过额外的机制（如预训练时的上下文信息）为模型提供必要的上下文，从而生成与上下文相关的文本。
生成过程顺序性：通过掩码多头自注意力机制，模型在生成每个词时只能访问已生成的序列，保证了生成过程的顺序性，避免了信息泄露。
模型结构相对简单：仅包含解码器部分，结构相对简单，训练和推理过程较为高效，易于实现和优化。

2.3 经典模型

GPT（Generative Pre-trained Transformer）是仅解码器架构的经典模型之一，具有以下特点：

强大的文本生成能力：GPT通过预训练大量的文本数据，学习到了丰富的语言知识和生成模式，能够生成高质量的文本，如新闻报道、故事创作、代码生成等。
单向语言模型：GPT采用单向语言模型的预训练方式，即根据已知的前文预测下一个词。这种单向生成方式使得模型在生成文本时能够保持连贯性和逻辑性。
预训练与微调相结合：GPT同样采用预训练加微调的范式。预训练阶段在大规模无监督语料上学习通用的语言知识；微调阶段则在特定任务上调整模型参数，以适应具体的应用需求。
广泛的应用：GPT及其后续版本（如GPT-2、GPT-3、GPT-4等）被广泛应用于各种自然语言生成任务中，成为文本生成领域的代表性模型。其强大的生成能力也推动了自然语言处理领域的发展。

3. 编码器 - 解码器架构（Encoder - Decoder）

3.1 工作原理

编码器 - 解码器架构的工作流程如下：

输入序列首先经过嵌入层，将每个单词或标记映射到一个固定维度的向量空间中，形成初始的词嵌入向量。
接着，对词嵌入向量添加位置编码，以引入序列中单词的位置信息，使得模型能够感知单词的顺序。
处理后的向量作为输入，传递给编码器。编码器由多层编码器堆叠而成，每一层编码器都包含两个主要模块：多头自注意力机制和前馈神经网络。在多头自注意力机制中，模型通过计算查询（Query）、键（Key）和值（Value）之间的点积注意力，让每个单词能够关注到序列中其他单词的信息，从而提取全局上下文特征。经过多头自注意力机制处理后的向量，会通过一个前馈神经网络进行进一步的特征转换和非线性映射，增强模型的表达能力。每一层编码器的输出都会通过残差连接和层归一化操作，以稳定训练过程，防止梯度消失或爆炸。最终，经过多层编码器堆叠处理后，输出一个上下文丰富的语义表示向量。
解码器同样由多层解码器堆叠而成，每一层解码器包含三个主要模块：掩码多头自注意力机制、编码器 - 解码器注意力机制和前馈神经网络。在掩码多头自注意力机制中，模型通过计算查询（Query）、键（Key）和值（Value）之间的点积注意力，并使用掩码矩阵防止模型在计算当前词的注意力分数时访问未来位置的信息，从而确保生成过程的顺序性。编码器 - 解码器注意力机制则将解码器的查询（Query）与编码器的键（Key）和值（Value）进行注意力计算，从而将编码器的上下文信息融入解码器的输出。经过编码器 - 解码器注意力机制处理后的向量，会通过一个前馈神经网络进行进一步的特征转换和非线性映射，增强模型的表达能力。每一层解码器的输出都会通过残差连接和层归一化操作，以稳定训练过程，防止梯度消失或爆炸。最终，经过多层解码器堆叠处理后，模型逐步生成一个完整的输出序列。在每一步生成过程中，模型仅根据已生成的序列信息和编码器的上下文信息预测下一个词，直到生成结束标记。

3.2 特点

编码器 - 解码器架构具有以下特点：

适用于序列到序列任务：编码器 - 解码器架构能够将输入序列编码为上下文向量，然后利用该向量逐步生成输出序列，适用于机器翻译、文本摘要、问答系统等序列到序列的任务，能够处理不同长度的输入和输出序列。
强大的上下文建模能力：编码器通过多头自注意力机制提取输入序列的全局上下文信息，解码器通过编码器 - 解码器注意力机制充分利用编码器的上下文信息，从而能够生成与输入序列语义相关且连贯的输出序列。
模型复杂度较高：由于编码器和解码器都包含多层堆叠结构，且每层都包含多个子模块，模型的参数量较大，训练和推理时间较长，对计算资源的要求较高。
并行处理能力有限：虽然编码器可以并行处理输入序列，但解码器在生成输出序列时是逐步进行的，无法完全并行化，导致整体的并行处理能力受到一定限制。

3.3 经典模型

原始的Transformer是编码器 - 解码器架构的经典模型之一，具有以下特点：

开创性的架构设计：Transformer首次提出了基于自注意力机制的编码器 - 解码器架构，摒弃了传统的循环神经网络（RNN）及其变体（如LSTM和GRU），通过并行计算和注意力机制高效处理序列数据，大大提高了训练效率和模型性能。
多头注意力机制：Transformer的编码器和解码器都采用了多头注意力机制，能够从不同角度捕捉序列中的特征，增强了模型的表达能力和对长距离依赖关系的建模能力。多头注意力机制通过将输入分割成多个“头”，每个头独立计算注意力权重，然后将所有头的输出拼接起来，从而能够捕捉到输入序列中不同子空间的特征。
预训练与微调相结合：Transformer同样采用预训练加微调的范式。预训练阶段在大规模无监督语料上学习通用的语言知识；微调阶段则在特定任务上调整模型参数，以适应具体的应用需求。这种范式大大提高了模型的性能和泛化能力。
广泛的应用：Transformer及其变体（如T5、BART等）被广泛应用于各种自然语言处理任务中，如机器翻译、文本摘要、问答系统等，成为许多任务的首选模型。其成功也推动了后续基于Transformer架构的模型的发展和创新。