《Attention is All You Need》：深度解读Transformer模型

Xu_youyaxianshen

已于 2024-06-06 17:00:49 修改

阅读量4.5k

点赞数 35

分类专栏：论文解读深度学习文章标签： transformer 深度学习人工智能

于 2024-05-13 15:11:31 首次发布

本文链接：https://blog.csdn.net/Xu_youyaxianshen/article/details/138802631

版权

深度学习同时被 2 个专栏收录

2 篇文章

订阅专栏

论文解读

1 篇文章

订阅专栏

Attention is All You Need：深度解读Transformer模型

论文《Attention is All You Need》介绍

本文将首先介绍常见的Attention机制，然后详细解读论文《Attention is All You Need》，该论文在NIPS 2017上发表，标志着Attention机制在NLP领域的一个重要里程碑。论文中提出的Transformer模型，以其独特的架构和优异的性能，已经成为当前NLP任务中的主流模型之一。

论文发表信息

标题: Attention is All You Need
作者: Google机器翻译团队
发表会议: NIPS 2017
链接: Attention is All You Need

1.引言

在自然语言处理（NLP）领域，注意力机制（Attention Mechanism）已成为提升模型性能的关键技术之一。本文将深入解读2017年由Google发表的开创性论文《Attention is All You Need》，该论文提出了一种全新的神经网络架构——Transformer，它在无需循环神经网络（RNN）和卷积神经网络（CNN）的情况下，通过注意力机制显著提升了机器翻译任务的性能。

2.Attention机制的起源与发展

注意力机制最初在计算机视觉领域提出，用于帮助模型集中于输入数据的重要部分。2014年，Google Mind的一篇论文《Recurrent Models of Visual Attention》使这一机制流行起来。随后，Bahdanau等人在2015年将注意力机制引入NLP领域，通过Seq2Seq+Attention模型进行机器翻译，取得了显著的效果提升。

1.视觉领域的起源

Attention机制的概念最早在计算机视觉领域被提出。2014年，Google Mind通过发表《Recurrent Models of Visual Attention》一文，使得Attention机制开始受到广泛关注。该论文采用了循环神经网络（RNN）模型，并集成了Attention机制来处理图像分类任务，开创了将注意力机制应用于深度学习模型的先河。

2.NLP领域的应用

随后，在自然语言处理（NLP）领域，Bahdanau等人在205年的论文《Neural Machine Translation by Jointly Learning to Align and Translate》中，首次将Attention机制应用于机器翻译。他们提出的Seq2Seq+Attention模型不仅提升了翻译质量，也为后续的NLP任务提供了新的思路。Seq2Seq With Attention的模型架构在相关文献中有所介绍。

3.Transformer模型的突破

2017年，Google机器翻译团队在《Attention is All You Need》一文中，彻底放弃了传统的循环神经网络（RNN）和卷积神经网络（CNN）结构，转而完全采用Attention机制来执行机器翻译任务。这一创新不仅简化了模型结构，还显著提高了翻译的性能，使得Attention机制成为当时乃至现在研究的热点。

3.Transformer模型架构

Transformer模型完全基于注意力机制，摒弃了传统的RNN和CNN结构。它由Encoder和Decoder两部分组成，每个部分都由多个相同的层组成，每层包括多头自注意力机制和前馈网络。

Encoder

Encoder有N=6层，每层包含两个子层（sub-layers）：

多头自注意力机制：允许模型在处理序列时同时关注序列的不同部分。
全连接前馈网络：对每个位置的向量进行相同的操作。

Decoder

Decoder也有N=6层，每层包含三个子层：

遮蔽多头自注意力机制：在生成过程中，模型只能关注到当前位置之前的信息。
全连接前馈网络：与Encoder中的相同。
对Encoder输出的注意力机制：允许Decoder的每个位置都能获取到输入序列的所有位置信息。

在这里插入图片描述
基于Transformer模型的Encoder-Decoder模型示意图

4.注意力机制的计算

Transformer使用的是缩放点积注意力（Scaled Dot-Product Attention），它通过计算Query和Key的点积，然后应用Softmax函数来获得权重，最后根据这些权重计算Value的加权和。
在这里插入图片描述

5.Scaled Dot-Product Attention（缩放的点积注意力机制）

在《Attention is All You Need》这篇论文中，作者们提出了一种新的注意力机制，即缩放点积注意力（Scaled Dot-Product Attention），它在计算效率和性能上都具有显著的优势。以下是对Scaled Dot-Product Attention的总结：

缩放点积注意力（Scaled Dot-Product Attention）

缩放点积注意力是一种特殊形式的注意力机制，它使用点积（即乘法）来计算查询（Query）和键（Key）之间的相似度，并通过一个缩放因子来调整计算结果，然后应用softmax函数来获取权重。

输入

Query (Q)：表示当前处理的位置或元素的查询向量。
Key (K)：表示序列中所有可能位置的键向量集合。
Value (V)：表示与键相对应的值向量集合。

计算步骤

点积计算：首先计算Query和每个Key的点积。
缩放操作：将点积结果除以键向量维度 ( d_k ) 的平方根，即 ( \frac{1}{\sqrt{d_k}} )，以避免维度过大导致梯度消失或爆炸的问题。
Softmax归一化：通过softmax函数将缩放后的点积转换为权重，这些权重表示每个Value对于当前Query的重要性。
加权求和：最后，使用这些权重对Value向量进行加权求和，得到最终的输出。

数学表达式

在这里插入图片描述

实际应用

$在实际应用中，Query、Key和Value通常被表示为矩阵形式，即 ( Q \in \mathbb{R}^{m \times d_k} )，( K \in \mathbb{R}^{m \times d_k} )，( V \in \mathbb{R}^{m \times d_v} )，其中 ( m ) 是序列长度，( d_k ) 是Key的维度，( d_v ) 是Value的维度。$

与Additive Attention的比较

Additive Attention：使用一个带有单个隐藏层的前馈神经网络来计算Query和Key之间的兼容性函数。
Dot-Product Attention：计算Query和Key的点积，不使用缩放因子。

$在实践中，Dot-Product Attention通常比Additive Attention更快，且空间效率更高，因为它可以利用优化的矩阵乘法操作。然而，当Key的维度 ( d_k ) 较大时，点积可能会迅速增长，导致softmax函数的梯度变得非常小。为了解决这个问题，Scaled Dot-Product Attention引入了缩放因子 ( \frac{1}{\sqrt{d_k}} )。$

结论

缩放点积注意力机制通过引入缩放因子，有效地解决了维度较大的问题，提高了模型的稳定性和性能。它在Transformer模型中发挥了核心作用，使得模型能够高效地处理序列数据，尤其是在机器翻译等NLP任务中取得了显著的成果。

6.多头注意力（Multi-Head Attention）

多头注意力机制通过将输入分割成多个“头”，每个头独立地计算注意力权重，然后将结果拼接起来，增加了模型的表达能力。
在这里插入图片描述

多头注意力机制概述

多头注意力机制通过将输入的queries、keys和values通过不同的线性映射分成多个“头”，然后并行地在每个映射版本上执行注意力函数。每个头生成的输出维度为d_v，然后将这些输出拼接起来，并通过另一个线性映射生成最终的输出。

公式表达

MultiHead(Q, K, V) = Concat(head_1, …, head_h) W^O
where head_i = Attention(Q W_i^Q , K W_i^K, V W_i^V)

其中，W_i^Q，W_iK，W_i^V 和 W^O 是可学习的参数矩阵，h 是注意力头的数量。

实现细节

每个头的维度 d_k 和 d_v 是模型维度 d_{model} 除以头数 h。
通过减少每个头的维度，即使增加了头数，总的参数量和计算复杂度也保持在可接受的范围内。

注意力机制在模型中的应用

Transformer模型中使用了三种不同的多头注意力机制：

Encoder-Decoder Attention：Decoder层的queries和encoder层的keys和values相结合，允许Decoder的每个位置都能关注到输入序列中的所有位置。
Encoder Self-Attention：Encoder层内部的self-attention，允许每个位置都能关注到前一层的所有位置。
Decoder Self-Attention：Decoder层内部的self-attention，但加入了掩码（mask）以防止信息流向左侧，保持输出的自回归特性。