transformer模型中的self-attention和multi-head-attention机制

最新推荐文章于 2025-03-16 17:15:00 发布

小镇大爱

最新推荐文章于 2025-03-16 17:15:00 发布

阅读量1.9w

点赞数 16

分类专栏：深度学习文章标签： self-attention multi-head-attention

本文链接：https://blog.csdn.net/qq_38343151/article/details/102993202

版权

深度学习专栏收录该内容

22 篇文章

订阅专栏

本文深入解析《Attentionisallyouneed》论文中的Transformer模型，介绍了其摒弃RNN，采用多头注意力机制构建seq2seq框架的独特之处。文章详细阐述了放缩点积attention、多头attention、编码器与解码器结构，以及位置编码的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

对于《Attention is all you need》这篇文章中提到的transformer模型，自己最初阅读的时候并不是很理解，于是决定从头开始，一点一点梳理transformer模型。这篇论文主要亮点在于：

（1）不同于以往主流机器翻译使用基于RNN的seq2seq模型框架，该论文用attention机制代替了RNN搭建了整个模型框架。

（2）提出了多头注意力（Multi-headed attention）机制方法，在编码器和解码器中大量的使用了多头自注意力机制（Multi-headed self-attention）。

该论文模型的整体结构如下图，还是由编码器和解码器组成，在编码器的一个网络块中，由一个多头attention子层和一个前馈神经网络子层组成，整个编码器栈式搭建了N个块。类似于编码器，只是解码器的一个网络块中多了一个多头attention层。为了更好的优化深度网络，整个网络使用了残差连接和对层进行了规范化（Add&Norm）。

下面我们重点关注一下这篇论文中的attention。在介绍多头attention之前，我们先看一下论文中提到的放缩点积attention（scaled dot-Product attention）。对比我在前面背景知识里提到的attention的一般形式，其实scaled dot-Product attention就是我们常用的使用点积进行相似度计算的attention，（这里可以查看我的另一篇文章https://blog.csdn.net/qq_38343151/article/details/102632649）只是多除了一个（为K的维度）起到调节作用，使得内积不至于太大。

多头attention（Multi-head attention）结构如下图，Query，Key，Value首先进过一个线性变换，然后输入到放缩点积attention，注意这里要做h次，其实也就是所谓的多头，每一次算一个头。而且每次Q，K，V进行线性变换的参数W是不一样的。然后将h次的放缩点积attention结果进行拼接，再进行一次线性变换得到的值作为多头attention的结果。可以看到，google提出来的多头attention的不同之处在于进行了h次计算而不仅仅算一次，论文中说到这样的好处是可以允许模型在不同的表示子空间里学习到相关的信息，后面还会根据attention可视化来验证。

此处参考https://www.jianshu.com/p/0c196df57323

Encoder部分

对于Encoder部分来说，整个的Encoder结构里包含6层，每一层里面有两层。分别是一层self-attention层和一层全连接层。需要注意的是，这里的self-attention并不是只有一层。模型中使用的是multi-head-Attention。其实就是多个self-attention，可以把每个self-attention理解为一个head，多个self-attention自然就是多头了。

前面几层的encoder的输出，会作为输入给下一层的encoder。这里要注意，每一个encoder里的两层的输出，都会进入一个add&Norm。最后的encoder会输出给后面的decoder模型。

Decoder部分

每一个单独的decoder与encoder相比，在self-attention层（decoder层中叫masked self-attention）和全连接网络层之间，多了一层Encoder-Decoder-Attention 层。

decoder中有两层attention层，decoder结构中，第一层是一个multi-head-self-attention层，这个与encoder中的区别是这里是masked-multi-head-self-attention。使用mask的原因是因为在预测句子的时候，当前时刻是无法获取到未来时刻的信息的。

decoder中的第二层attention层就是一个正常的multi-head attention层。但是这里Q,K,V来源不同。Q来自于上一个decoder的输出，而K,V则来自于encoder的输出。剩下的计算就没有其他的不同了。

关于这两个attention层，可以理解为 mask-self-attention是计算当前翻译的内容和已经翻译的前文之间的关系，而encoder-decoder-attention 是计算当前翻译内容和编码的特征向量之间的关系。最后再经过一个全连接层，输出decoder的结果。

Positional Encoding

截止目前为止，我们介绍的Transformer模型并没有捕捉顺序序列的能力，也就是说无论句子的结构怎么打乱，Transformer都会得到类似的结果。

为了解决这个问题，论文中在编码词向量时引入了位置编码（Position Embedding）的特征。具体地说，位置编码会在词向量中加入了单词的位置信息，这样Transformer就能区分不同位置的单词了。

这里的意思是将 id 为 p 的位置映射为一个 dpos 维的位置向量， i 表示单词的维度。

Position Embedding 本身是一个绝对位置的信息，但在语言中，相对位置也很重要，Google 选择前述的位置向量公式的一个重要原因如下：除了单词的绝对位置，单词的相对位置也非常重要。由于我们有 sin(α+β)=sinα cosβ+cosα sinβ 以及 cos(α+β)=cosα cosβ−sinα sinβ，这表明位置 p+k 的向量可以表明位置 p 的向量的线性变换，这提供了表达相对位置信息的可能性。