《Transformer》论文精读：只用注意力机制，Transformer奠定了大模型网络架构的基石

最新推荐文章于 2025-06-03 20:10:27 发布

OpenAppAI

最新推荐文章于 2025-06-03 20:10:27 发布

阅读量1.7k

点赞数 20

CC 4.0 BY-SA版权

分类专栏： Paper论文精读：大模型+多模态+图像领域文章标签： transformer 架构深度学习大模型

本文链接：https://blog.csdn.net/my_name_is_learn/article/details/144693506

2017年论文Attention Is All You Need (Transformer)

在这里插入图片描述

阅读本篇文章你可以了解到

1 从RNN开始谈起

机器翻译，就是将某种语言的一段文字翻译成另一段文字。由于翻译没有唯一的正确答案，用准确率来衡量一个机器翻译算法并不合适。因此，机器翻译的数据集通常会为每一条输入准备若干个参考输出。统计算法输出和参考输出之间的重复程度，就能评价算法输出的好坏了。这种评价指标叫做BLEU Score。这一指标越高越好。
在这里插入图片描述
在深度学习时代早期，人们使用RNN（循环神经网络）来处理机器翻译任务。一段输入先是会被预处理成一个token序列。RNN会对每个token逐个做计算，并维护一个表示整段文字整体信息的状态。根据当前时刻的状态，RNN可以输出当前时刻的一个token。所谓token，既可以是一个单词、一个汉字，也可能是一个表示空白字符、未知字符、句首字符的特殊字符。

具体来说，在第 $t$ 轮计算中，输入是上一轮的状态 $a^{<t-1>}$ 以及这一轮的输入token $x^{<t>}$ ，输出这一轮的状态 $a^{<t>}$ 以及这一轮的输出token $y^{<t>}$ 。
在这里插入图片描述
这种简单的RNN架构仅适用于输入和输出等长的任务。然而，大多数情况下，机器翻译的输出和输入都不是等长的。因此，人们使用了一种新的架构。前半部分的RNN只有输入，后半部分的RNN只有输出（上一轮的输出会当作下一轮的输入以补充信息）。两个部分通过一个状态 $a^{T_k}$ 来传递信息。把该状态看成输入信息的一种编码的话，前半部分可以叫做“编码器”，后半部分可以叫做“解码器”。这种架构因而被称为“编码器-解码器”架构。

在这里插入图片描述
这种架构存在不足：编码器和解码器之间只通过一个隐状态来传递信息。在处理较长的文章时，这种架构的表现不够理想。为此，有人提出了基于注意力的架构。这种架构依然使用了编码器和解码器，只不过解码器的输入是编码器的状态的加权和，而不再是一个简单的中间状态。每一个输出对每一个输入的权重叫做注意力，注意力的大小取决于输出和输入的相关关系。这种架构优化了编码器和解码器之间的信息交流方式，在处理长文章时更加有效。

在这里插入图片描述

尽管注意力模型的表现已经足够优秀，但所有基于RNN的模型都面临着同样一个问题：RNN本轮的输入状态取决于上一轮的输出状态，这使RNN的计算必须串行执行。因此，RNN的训练通常比较缓慢。在这一背景下，抛弃RNN，只使用注意力机制的Transformer横空出世了。

2 Transformer的注意力机制

2.1 摘要

摘要传递的信息非常简练：

1）当前最好的架构是基于注意力的"encoder-decoder"架构。这些架构都使用了CNN或RNN。这篇文章提出的Transformer架构仅使用了注意力机制，而无需使用CNN和RNN。
2）两项机器翻译的实验表明，这种架构不仅精度高，而且训练时间大幅缩短。

2.2 Transformer架构的设计动机

引言的第一段回顾了RNN架构。以LSTM和GRU为代表的RNN在多项序列任务中取得顶尖的成果。许多研究仍在拓宽循环语言模型和"encoder-decoder"架构的能力边界。

第二段就开始讲RNN的不足了。RNN要维护一个隐状态，该隐状态取决于上一时刻的隐状态。这种内在的串行计算特质阻碍了训练时的并行计算（特别是训练序列较长时，每一个句子占用的存储更多，batch size变小，并行度降低）。有许多研究都在尝试解决这一问题，但是，串行计算的本质是无法改变的。

上一段暗示了Transformer的第一个设计动机：提升训练的并行度。第三段讲了Transformer的另一个设计动机：注意力机制。注意力机制是当时最顶尖的模型中不可或缺的组件。这一机制可以让每对输入输出关联起来，而不用像早期使用一个隐状态传递信息的"encoder-decoder"模型一样，受到序列距离的限制。然而，几乎所有的注意力机制都用在RNN上的。

既然注意力机制能够无视序列的先后顺序，捕捉序列间的关系，为什么不只用这种机制来构造一个适用于并行计算的模型呢？因此，在这篇文章中，作者提出了Transformer架构。这一架构规避了RNN的使用，完全使用注意力机制来捕捉输入输出序列之间的依赖关系。这种架构不仅训练得更快了，表现还更强了。

通过阅读摘要和引言，我们基本理解了Transformer架构的设计动机。作者想克服RNN不能并行的缺点，又想充分利用没有串行限制的注意力机制，于是就提出了一个只有注意力机制的模型。模型训练出来了，结果出乎预料地好，不仅训练速度大幅加快，模型的表现也超过了当时所有其他模型。

2.3 什么是注意力

文章在介绍Transformer的架构时，是自顶向下介绍的。但是，一开始我们并不了解Transformer的各个模块，理解整体框架时会有不少的阻碍。因此，我们可以自底向上地来学习Transformer架构。

先抽象地理解一下注意力机制究竟是在做什么？其实，“注意力”这个名字取得非常不易于理解。这个机制应该叫做“全局信息查询”。做一次“注意力”计算，其实就跟去数据库了做了一次查询一样。下面举个例子：

假设，我们现在有这样一个以人名为key（键），以年龄为value（值）的数据库：

{
   
“张三”：18，
“张三”：20，
“李四”：22，
“张伟”：19，
}

现在，我们有一个query（查询），问所有叫“张三”的人的年龄平均值是多少。让我们写程序的话，我们会把字符串“张三”和所有key做比较，找出所有“张三”的value，把这些年龄值相加，取一个平均数。这个平均数是(18+20)/2=19。

但是，很多时候，我们的查询并不是那么明确。比如，我们可能想查询一下所有姓张的人的年龄平均值。这次，我们不是去比较key = 张三,而是比较key[0] = 张。这个平均数应该是(18+20+19)/3=19。

**或许，我们的查询会更模糊一点，模糊到无法用简单的判断语句来完成。因此，最通用的方法是，把query和key各建模成一个向量。**之后，对query和key之间算一个相似度（比如向量内积），以这个相似度为权重，算value的加权和。这样，不管多么抽象的查询，我们都可以把query, key建模成向量，用向量相似度代替查询的判断语句，用加权和代替直接取值再求平均值。“注意力”，其实指的就是这里的权重。

把这种新方法套入刚刚那个例子里。我们先把所有key建模成向量，可能可以得到这样的一个新数据库：

    [1, 2, 0]: 18, # 张三
    [1, 2, 0]: 20, # 张三 
    [0, 0, 2]: 22, # 李四
    [1, 4, 0]: 19 # 张伟

假设key[0]=1表示姓张。我们的查询“所有姓张的人的年龄平均值”就可以表示成向量[1, 0, 0]。用这个query和所有key算出的权重是：

dot([1, 0, 0], [1, 2, 0]) = 1
dot([1, 0, 0], [1, 2, 0]) = 1
dot([1, 0, 0], [0, 0, 2]) = 0
dot([1, 0, 0], [1, 4, 0]) = 1

之后，我们该用这些权重算平均值了。注意，算平均值时，权重的和应该是1。因此，我们可以用softmax把这些权重归一化一下，再算value的加权和。

softmax([1, 1, 0, 1]) = [1/3, 1/3, 0, 1/3]
dot([1/3, 1/3, 0, 1/3], [18, 20, 22, 19]) = 19

这样，我们就用向量运算代替了判断语句，完成了数据库的全局信息查询。 **那三个1/3，就是query对每个key的注意力。**

2.4 缩放点乘注意力Scaled Dot-Product Attention

我们刚刚完成的计算差不多就是Transformer里的注意力，这种计算在论文里叫做放缩点乘注意力（Scaled Dot-Product Attention）。它的公式是：

$softmax(\frac{QK^T}{\sqrt{d_k}})V$

我们先来看看 $Q, K, V$ 在刚刚那个例子里究竟是什么。 $K$ 比较好理解， $K$ 其实就是key向量的数组，也就是

K = [[1, 2, 0], [1, 2, 0], [0, 0, 2], [1, 4, 0]]

同样， $V$ 就是value向量的数组。而在我们刚刚那个例子里，value都是实数。实数其实也就是可以看成长度为1的向量。因此，那个例子的 $V$ 应该是

V = [[18], [20], [22], [19]]

在刚刚那个例子里，我们只做了一次查询。因此，准确来说，我们的操作应该写成。
$MyAttention(q,K,V) = softmax(qK^T)V$

其中，query $q$ 就是[1, 0, 0]了。

实际上，我们可以一次做多组query。把所有 $q$ 打包成矩阵Q，就得到了公式
$softmax(\frac{QK^T}{\sqrt{d_k}})V$

等等，这个 $d_k$ 是什么意思？ $d_k$

最低0.47元/天解锁文章

200万优质内容无限畅学