论文解析：一文弄懂Transformer！

最新推荐文章于 2025-06-09 22:30:00 发布

Nelson_hehe

最新推荐文章于 2025-06-09 22:30:00 发布

阅读量1.4k

点赞数 40

分类专栏：论文精读系列深度学习-计算机视觉 # CS231n课程文章标签： transformer 深度学习人工智能 Attention 大模型

本文链接：https://blog.csdn.net/hehe_soft_engineer/article/details/148512453

版权

论文精读系列同时被 3 个专栏收录

6 篇文章

订阅专栏

深度学习-计算机视觉

6 篇文章

订阅专栏

CS231n课程

3 篇文章

订阅专栏

#王者杯·14天创作挑战营·第2期#

一、相关资源

论文题目：Attention Is All You Need

链接：Attention is All you Need

参考代码：https://github.com/jadore801120/attention-is-all-you-need-pytorch

二、Motivation

RNN可以有效处理时序信息，将前面的信息放到隐藏状态里，一个个地传递下去。存在的问题就是无法并行计算。
在卷积网络中两个位置隔着比较远的元素如果需要融合的话需要多层卷积才能实现。但是在transformer中这种从一个变量到另一个变量操作步骤是一个恒定的，时间复杂度为O(1)，尽管会降低一些分辨率。
自注意力机制工作：已经成功地应用于各种任务，包括阅读理解、抽象摘要、文本蕴涵与学习任务无关的句子表示等方面，为transformer的提出提供了参考。

三、技术细节

1.自注意力机制（多头）

为了让模型能够捕捉不同的特征模式，Transformer引入了多头自注意力机制。具体来说，它将自注意力层复制多次（即多个“头”），并分别进行不同的线性变换，然后将这些头的输出拼接在一起，进行最终的线性变换。这使得模型能够同时关注到输入序列的不同的特征和模式，提高了表示能力。

(1)基本原理

多头自注意力机制通过并行地使用多个自注意力头来捕捉输入序列中的不同上下文信息。每个头都会独立地对输入序列进行自注意力计算，即计算每个词元与序列中其他词元的相关性，并生成一个注意力分布，这个分布决定了该头在输入序列中各个位置的重要性。

(2)处理过程

①分割输入

输入序列的每个词向量会被分割成多个头（Head），每个头关注输入的不同部分。例如，如果输入词向量的维度是512，可以选择创建8个头，每个头的维度就是64。

②计算注意力

对于每个头，分别计算其自注意力。这意味着每个头都会生成一个注意力分布，该分布通过计算输入序列中每个词元与当前词元之前所有词元的键（Key）进行点积，并应用Softmax函数获得权重，然后根据这些权重对值（Value）向量进行加权求和，从而生成该头的输出。

③拼接输出

所有头的输出会被拼接起来，形成一个新的表示。这个表示的维度与原始输入相同，但包含了多个头关注的信息。

④线性变换

最后，通过一个输出权重矩阵对拼接后的表示进行线性变换，得到最终的输出矩阵。

2.掩码自注意力层

Masked Self-Attention Layer（掩码自注意力层）在Transformer模型的Decoder部分中扮演着关键角色，主要用于解决序列生成任务中的一些问题，特别是在训练和预测阶段。

(1)作用

①防止信息泄露

在训练阶段，Masked Self-Attention Layer确保Decoder在生成某个位置的输出时，不会看到该位置之后的信息，即防止模型“作弊”使用未来的信息。这有助于模型学习到正确的依赖关系，并生成合理的序列。

②符合自回归特性

在序列生成任务中，模型需要逐步生成序列的每个元素，而每个元素的生成都只能依赖于之前已经生成的元素。Masked Self-Attention Layer通过掩码操作实现了这一点，使得模型在生成当前位置的输出时，只能关注到之前位置的信息。

③保持预测一致性

在预测阶段，Masked Self-Attention Layer确保对于重复的输入序列，模型能够生成一致的输出序列。这有助于保持模型预测的稳定性和可靠性。

(2)实现步骤

①计算自注意力得分

首先，模型会为输入序列中的每个元素（通常是词嵌入向量）生成三个不同的表示：查询向量（Query）、键向量（Key）和值向量（Value）。然后，通过计算查询向量和键向量之间的相似度（通常是点积）+softmax操作来得到自注意力得分（上图中的alignment scores）。

②应用掩码

在得到自注意力得分（上图中的alignment scores）后，Masked Self-Attention Layer会应用一个掩码矩阵来修改这些得分。掩码矩阵的大小与自注意力得分矩阵相同，但其值通常是一个二进制矩阵，用于将未来位置的注意力权重设置为0（或非常小的负数，以确保在Softmax操作后这些位置的权重接近于0）。这样，模型在生成某个位置的输出时就不会受到该位置之后信息的影响。

③加权求和（这个就是softmax操作后的步骤了）

经过掩码处理后的自注意力得分会被用于对值向量进行加权求和，从而得到每个位置的输出表示。这个输出表示既包含了当前位置的语义信息，也包含了之前位置的信息（通过自注意力机制），但不包含未来位置的信息（由于掩码的作用）。

(3)掩码矩阵生产方式（扩展）：

①在实现过程中，可以通过编程手段生成这样的掩码矩阵。

例如，在PyTorch中，可以使用torch.triu（或torch.tril的转置，取决于你想要的掩码形状）函数生成一个上三角矩阵，然后将其元素设置为负无穷大，再将其与自注意力得分矩阵相加。但是，更常见的是直接生成一个与自注意力得分矩阵形状相同的全零矩阵，然后将其下三角（包括对角线）部分设置为负无穷大。

②另一种常见的做法

是在实现多头注意力机制时，将掩码矩阵作为一个额外的参数传递给注意力层，并在注意力得分的计算过程中应用这个掩码。

3.layerNorm归一化

与batchNorm相对应，layerNorm针对样本归一化，batchNorm针对特征归一化。

为什么transformer使用layernorm？

由于序列长度变化、批次大小（模型很复杂）、计算依赖性、适应性和泛化能力方面考虑，使用layernorm。

4.自注意力计算方式

由于计算过程均为矩阵的点积运算（文章中称这种方式为“Scaled Dot-Product Attention”），所以计算可以采用并行方式，解决了RNN网络无法并行计算的问题。

$Attention(Q,K,V)=softmax(\frac{QK^{T}}{\sqrt{d_{k}}})V$

5.残差连接

在Transformer模型中，残差连接被应用在其两个主要组件中：编码器（Encoder）和解码器（Decoder）内部的多个自注意力（Self-Attention）层和前馈神经网络（Feed-Forward Neural Network, FFN）层之间。

(1)编码器

(2)解码器

解码器的结构类似，但在自注意力层和编码器-解码器注意力层（Encoder-Decoder Attention Layer）之后都使用了残差连接。解码器的每个子层也是由自注意力层、编码器-解码器注意力层以及前馈神经网络层组成，这些层之间都使用了残差连接。

6.前馈网络（Position-wise Feed-Forward Networks）

本质上是一个MLP，作用在编码器和解码器的最后一个维度，注意RNN和Transformer中对MLP的使用及其具有的不同意义。

7.位置编码

Positional Encoding（位置编码）是Transformer模型中的一个重要组成部分，用于向模型提供序列中每个元素（如单词或字符）的位置信息。由于Transformer模型完全基于自注意力机制，而不像循环神经网络（RNN）或长短期记忆网络（LSTM）那样天然具有处理序列数据的能力，因此需要通过位置编码来引入序列的顺序信息。

本文采用计算方式（正弦余弦函数）：

四、网络结构及参数选择

1.网络结构

(1)Transformer encoder block

(2)Transformer decoder block

2.不同种类模型对比

四种层在数据、序列计算（就是指的下一步计算要等多久才能进行）复杂度和位置信息三个方面去比较，解释得到为什么要使用自注意力层：

在循环神经网络中，每个单词生成都需要一个MLP（一个向量为d维），需要的时间复杂度是d维向量进行全连接操作，复杂度是d^2，生成n个单词复杂度就是n*d^2
关于卷积，这里是使用1D卷积来实现的，卷积核大小为k，对n个d维向量，输入输出都为d，感受野是k，那么k范围内的信息一次就可以传递，其他的不行，所以这里使用logk为底
由于transformer对网络的约束比较少，所以需要更大的网络才可以实现RNN、CNN训练相同的效果，所以导致transformer又大又贵