回到梦开始的地方——深入浅出大模型基础框架Transformer架构

FLY AGAIN

已于 2024-09-08 11:07:15 修改

阅读量1.5k

点赞数 16

分类专栏： AIGC 9月挑战·日更博客文章标签： transformer 深度学习人工智能

于 2024-09-07 20:59:01 首次发布

本文链接：https://blog.csdn.net/Ma_mba_/article/details/142001712

版权

AIGC 同时被 2 个专栏收录

15 篇文章

订阅专栏

9月挑战·日更博客

15 篇文章

订阅专栏

Transformer技术框架解析

Transformer模型自2017年由Vaswani等人提出以来，已经成为自然语言处理（NLP）领域的一个里程碑。ransformer对于大模型的意义在于它提供了一个强大的框架，不仅能够有效地处理复杂的语言任务，还能够随着模型规模的增大保持性能的提升，并且促进了整个AI领域的技术进步。而今我们使用的各类大模型无不是基于Transformer架构衍生出来的模型。

首先贴出Transformer的原文链接：
Attention Is All You Need
在这里插入图片描述

1. 引言：Transformer的诞生与影响

1.1 历史背景

1.1.1 传统序列模型的局限性

传统序列模型如RNN和LSTM在处理长序列时面临梯度消失和梯度爆炸的问题，导致模型性能受限。
这些模型通常需要逐步处理序列，导致计算效率低下，难以并行化处理。

1.1.2 Transformer的创新之处

Transformer模型由Vaswani等人于2017年提出，它摒弃了传统的循环结构，采用自注意力机制处理序列数据。
该模型能够并行处理序列中的所有元素，大大提高了训练效率和处理速度。

1.1.3 影响力与应用

Transformer模型在自然语言处理（NLP）领域取得了革命性的进展，成为众多NLP任务的基石。
它也被广泛应用于机器翻译、文本摘要、问答系统等多个领域，推动了AI技术的发展。

2. Transformer的核心架构

在这里插入图片描述

2.1 编码器与解码器

Transformer模型主要由编码器（Encoder）和解码器（Decoder）两部分组成，两者都是通过堆叠多层相同的基本单元形成的。

2.1.1 编码器架构

在这里插入图片描述

编码器由N个相同的层组成，每个层包含两个子层：

自注意力层（Self-Attention Layer）：允许输入序列的每个位置都能同时关注到序列中的所有其他位置，从而捕捉全局依赖关系。
前馈神经网络（Feed-Forward Neural Network）：对自注意力层的输出进行进一步的非线性变换。

在每个子层中都有残差连接（Residual Connection），然后进行层归一化（Layer Normalization）。

编码器的主要任务是将输入序列编码为连续的向量表示

2.1.2 解码器架构

在这里插入图片描述

解码器同样由N个相同的层组成，每个层包含三个子层：

自注意力层（Masked Self-Attention Layer）：与编码器的自注意力层类似，但为了防止解码时泄露未来信息，需要对未来的位置进行遮挡（masking）。
编码器-解码器注意力层（Encoder-Decoder Attention Layer）：使得解码器的每个位置都能注意到编码器的所有位置，实现编码器和解码器之间的交互。
前馈神经网络（Feed-Forward Neural Network）：同编码器中的前馈神经网络。

同样地，每个子层中也有残差连接和层归一化。

解码器的任务是利用编码器的输出和之前生成的输出逐步生成输出序列。

2.1 自注意力机制

2.1.1 机制原理

在这里插入图片描述
自注意力是Transformer的核心概念，其计算过程如下：

查询（Query）、键（Key）和值（Value）：输入序列通过矩阵变换得到Q、K、V三个矩阵。
计算注意力得分：计算Q和K的点积，并通过scale（通常除以键向量维度的平方根）。
Softmax函数：对得分进行Softmax操作，得到注意力权重。
加权和：将注意力权重与V相乘并求和，得到加权后的值，即自注意力的输出。

注意力机制

通过计算序列中每个元素对其他所有元素的注意力权重，模型能够捕捉到序列内部的长距离依赖。
自注意力机制允许模型在序列的不同位置之间直接建立依赖关系，无需等待序列的逐步处理。

2.1.2 多头注意力

在这里插入图片描述

Transformer通过多头注意力机制进一步提升模型的表示能力。
每个头学习序列的不同方面，如句法、语义等，然后将这些信息合并，以获得更丰富的序列表示。

2.3 位置感知特性

在这里插入图片描述

2.3.1 位置编码

由于Transformer不包含循环神经网络（RNN）或卷积神经网络（CNN）中的固有位置信息，因此需要引入位置编码来表示词在序列中的位置。
位置编码通常使用正弦和余弦函数来生成，其维度与词嵌入相同，可以与词嵌入相加，使模型能够捕捉序列的顺序信息。

2.3.2 位置编码的重要性

位置编码是Transformer模型中的关键组成部分，它使得模型能够理解序列中单词的顺序。
位置编码可以是固定的或可学习的，通常通过训练过程中的反向传播进行优化。

2.3.3 位置编码的实现方式

位置编码可以通过正弦和余弦函数生成，为每个位置提供唯一的编码。
另一种实现方式是使用可学习的参数，这些参数在训练过程中与模型的其他部分一起更新。

3. Transformer的优化与变体

3.1 模型优化

3.1.1 层标准化

层标准化是一种技术，用于稳定训练过程并加速收敛。
它通过规范化层的输出来减少内部协变量偏移，从而提高模型的泛化能力。

3.1.2 残差连接

残差连接允许模型在每个子层中直接传递信息，有助于缓解深层网络中的梯度消失问题。
通过添加输入和输出，残差连接使得深层网络的训练变得更加有效。

3.1.3 优化算法

Transformer模型通常使用Adam或其变体作为优化算法，这些算法能够自适应地调整学习率，加速模型的收敛。

3.2 变体介绍

3.2.1 BERT

在这里插入图片描述

BERT（Bidirectional Encoder Representations from Transformers）是Transformer的一个变体，它通过预训练语言表示来提高NLP任务的性能。
BERT的基础架构是基于Transformer的编码器部分。它通过堆叠多层双向Transformer来构建一个深层网络。
BERT通过大量文本数据的预训练，学习到丰富的语言模式和语义信息。
预训练完成后，BERT模型可以通过微调来适应各种下游任务，如文本分类、命名实体识别、情感分析等。微调时，只需在BERT模型的基础上添加一个或几个输出层，然后使用特定任务的标签数据来进一步训练模型。

3.2.2 GPT

在这里插入图片描述

GPT（Generative Pre-trained Transformer）是另一个变体，主要用于文本生成任务。
GPT模型基于Transformer的解码器部分，解码器是一种自注意力机制，它允许模型在生成文本时能够关注到之前生成的所有词。
GPT的预训练任务是语言建模，即给定一个文本序列，模型需要预测下一个词。这种自回归的方式使得GPT非常适合生成文本。
GPT模型的核心在于其强大的生成能力，它能够根据给定的上下文生成连贯、有逻辑性的文本。GPT模型的出现推动了自然语言生成领域的发展，并为后续的模型（如GPT-2、GPT-3）奠定了基础。GPT模型的成功证明了预训练加微调的模式在自然语言处理中的有效性。