Attention Is All You Need--论文笔记

wbzuo

已于 2024-07-25 21:31:59 修改

阅读量1.1k

点赞数 23

分类专栏：深度学习文章标签：论文阅读

于 2024-06-03 11:56:47 首次发布

本文链接：https://blog.csdn.net/dezwb/article/details/139156855

版权

论文笔记

资料

1.代码地址

2.论文地址

https://arxiv.org/abs/1706.03762

3.数据集地址

论文摘要的翻译

主要的序列转导模型是基于复杂的RNN（循环神经网络）或CNN（卷积神经网络），一个编码器和一个解码器。表现最好的模型还通过注意机制连接的编码器和解码器。我们提出了一个新的简单的网络架构，Transformer，完全基于注意力机制，完全摒弃循环和卷积。在两个机器翻译任务上的实验表明，这些模型在质量上更优越，同时更具并行性，并且需要更少的训练时间。我们的模型在WMT 2014英语-德语翻译任务上实现了28.4 BLEU，比现有的最佳结果(包括集合)提高了2个BLEU以上。在WMT 2014英法翻译任务中，我们的模型在8个gpu上训练3.5天后，建立了一个新的单模型最先进的BLEU分数41.8，这是文献中最佳模型训练成本的一小部分。我们通过将Transformer成功地应用于具有大量和有限训练数据的英语选区解析，证明了它可以很好地推广到其他任务。

1 背景

1.1 自注意力机制

Self-attention
有时称为内注意，是一种将单个序列的不同位置联系起来的注意机制，以便计算该序列的表示。

1.2 端到端记忆网络

端到端记忆网络基于循环注意机制，而不是顺序排列的递归，

2论文的创新点

本文提出了一个新的简单的网络架构，Transformer，完全基于注意力机制，完全摒弃循环和卷积。
用多头自注意取代了编码器-解码器架构中最常用的循环层。

3 论文方法的概述

这里，编码器映射符号表示 $x_1，…，x_n)$ 的输入序列。， xn)到连续表示序列 $z = (z_1，…，z_n)$ 。给定 $z$ ，解码器然后生成输出序列 $y_1，…， y_m)$ 符号，一次一个元素。在每一步中，模型都是自回归的，在生成下一个符号时，将之前生成的符号作为额外的输入。

3.1 编码器和解码器

Encoder
编码器由 $N = 6$ 个相同层的堆栈组成。每一层有两个子层。第一层是多头自注意机制，第二层是简单的、位置完全连接的前馈网络。我们在每一个子层周围使用残差连接，然后进行层归一化。也就是说，每个子层的输出是 $L a yer N or m (x + S u b l a yer (x))$ ，其中 $S u b l a yer (x)$ 是子层本身实现的函数。为了方便这些残差连接，模型中的所有子层以及嵌入层产生的输出维度为 $d_{model} = 512$ 。解码器架构如下图
Decoder
解码器也由 $N = 6$ 层相同的堆栈组成。除了每个编码器层中的两个子层之外，解码器插入第三个子层，该子层对编码器堆栈的输出执行多头注意。与编码器类似，我们在每个子层周围使用残差连接，然后进行层归一化。我们还修改了解码器堆栈中的自注意子层，以防止位置关注后续位置。这种掩蔽，再加上输出嵌入被偏移一个位置的事实，确保了位置i的预测只能依赖于位置小于i的已知输出。解码器结构如下图

3.2注意力机制

注意力机制实现可以描述为将查询和一组键值对映射到输出，其中查询、键、值和输出都是向量。输出是作为值的加权和计算的，其中分配给每个值的权重是由查询与相应键的兼容性函数计算的。

3.2.1 Scaled Dot-Product Attention

我们称我们的特殊注意力机制为“Scaled Dot-Product Attention”(图2)。输入 $d_k$ 的查询和键以及维度 $d_v$ 的值组成。我们计算查询与所有键的点积，每个点积除以 $\sqrt{d_k}$ 并应用softmax函数来获得值的权重。
在这里插入图片描述
在实践中，我们同时计算一组查询的注意力函数，它们被打包成一个矩阵 $Q$ 。键和值也打包到矩阵 $K$ 和 $V$ 中。我们计算输出矩阵为: $\mathrm{Attention}(Q,K,V)=\mathrm{softmax}(\frac{QK^{T}}{\sqrt{d_{k}}})V$