深入剖析Transformer-总体架构

最新推荐文章于 2024-08-28 10:45:00 发布

AI学习不迷路

最新推荐文章于 2024-08-28 10:45:00 发布

阅读量1k

点赞数 27

文章标签： transformer 深度学习人工智能 AI大模型大模型大语言模型自然语言处理

本文链接：https://blog.csdn.net/qkh1234567/article/details/141182980

版权

在这里插入图片描述

Encoder-Decoder架构是自然语言处理（NLP）和其他序列到序列（Seq2Seq）转换任务中的一种常见框架。

这种架构的核心思想是将输入序列编码成一个固定大小的向量表示，然后利用这个向量来生成输出序列。

例如：Seq2Seq模型框架包括两部分，分别是编码器和解码器，它们都是循环神经网络。它能实现从一个序列到另外一个序列的映射，而且两个序列的长度可以不相等。机器翻译就是典型Seq2Seq模型，从一个序列到另外一个序列的预测：

在这里插入图片描述

Transformer也遵循这种总体架构，使用堆叠的自注意力机制和逐位置的全连接层，分别用于编码器和解码器，如图中的左半部分和右半部分所示。

Transformer模型通过输入嵌入、位置编码、多头注意力、残差连接和层归一化、带掩码的多头注意力以及前馈网络等组件，实现了对输入序列的高效编码和输出序列的生成。

在每个步骤中，模型是自回归的，在生成下一个符号时，会将先前生成的符号作为额外的输入。

输入嵌入

输入嵌入（Input Embedding）： 负责将输入的符号或词元（如单词或字符）转换为连续的多维向量表示，以便模型能够理解和处理。这是文本向量化的一种形式，有助于模型捕捉文本中的语义和语法信息。

在Transformer模型中，输入嵌入是通过查找嵌入矩阵（Embedding Matrix）来实现的。当输入序列中的每个词元通过嵌入层时，它会在嵌入矩阵中查找其对应的向量表示。

这种向量表示是低维且连续的，使得模型能够捕捉词元之间的相似性和关系。

位置编码

位置编码（Positional Encoding）： 主要目标是在序列数据的嵌入向量中引入位置信息，以捕捉语言中单词或字符的顺序信息。

位置编码通常是通过将正弦和余弦函数的值添加到输入嵌入向量中来实现的。

这些函数能够生成具有不同频率的波形，从而允许模型区分不同位置的信息。通过这种方式

，即使Transformer模型是

并行处理序列数据的，它也能够理解和利用单词在序列中的顺序信息。

多头注意力

多头注意力（Multi-Head Attention）： 主要目标是允许模型同时学习多组不同的自注意力权重。每个“头”可以被看作是一种注意力权重的不同子表示。

通过并行运行多个自注意力层并综合其结果，能够同时捕捉输入序列在不同子空间中的信息。每个头部独立地学习不同的注意力权重，并通过不同的线性变换对输入序列进行编码。通过这种方式，多头注意力能够同时关注来自输入序列的不同子空间的信息，从而增强了模型的表达能力。

在这里插入图片描述

残差连接和层归一化（Add & Norm）： 主要起到稳定模型训练、提高性能的作用，共同确保模型在训练过程中能够更有效地学习输入数据的特征，并生成更准确的输出。

残差连接（Add）：本质上类似一种兜底策略，目的是当模型的深度已经达到最优解，后面再增加冗余层也至少不会导致之前的效果下降。它的做法是将上一层的输出直接连接到下一层的输出，及上一层的输出直接和下一层的原始输出对应位置相加形成最终输出。例如：模型一共50层，若第25层时模型已经充分学习达到测试集最佳效果，则让从26层开始到第50层学习一种恒等变换，在最后一层将第26层的输出恒等映射出来。