attention is all you need 导读

最新推荐文章于 2024-09-14 19:18:15 发布

一只特蕉

最新推荐文章于 2024-09-14 19:18:15 发布

阅读量976

点赞数 23

分类专栏：大模型基础大语言模型文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/qq_41527980/article/details/135862366

版权

大语言模型同时被 2 个专栏收录

17 篇文章 1 订阅

订阅专栏

大模型基础

4 篇文章 0 订阅

订阅专栏

本文介绍了一种新型网络架构Transformer，利用自注意力机制在机器翻译和句法分析任务中取得优异成绩，超越了传统模型，尤其是在并行化和长距离依赖处理方面有所提升。

摘要由CSDN通过智能技术生成

https://arxiv.org/pdf/1706.03762.pdf

本文介绍了一种新的网络架构——Transformer，它完全基于注意力机制，摒弃了循环和卷积等复杂的神经网络结构。实验表明，该模型在机器翻译任务中表现优异，不仅质量更高，而且更易于并行化，并且训练时间显著缩短。在WMT 2014英语到德语和英语到法语翻译任务上，该模型分别取得了28.4和41.8的BLEU分数，超过了目前文献中的最佳结果。此外，该模型还成功应用于英语句法分析任务，证明其具有很好的泛化能力。

论文方法

方法描述

该论文提出了一种基于自注意力机制的神经机器翻译模型，称为Transformer。该模型由编码器和解码器组成，其中每个层都包含多头自注意力子层、全连接前馈网络和位置嵌入等组件。自注意力机制允许每个位置在解码器中关注所有之前的位置，并且在编码器中关注整个输入序列。全连接前馈网络用于处理每个位置的向量表示，而位置嵌入则为每个位置提供位置信息。此外，论文还介绍了如何使用固定或学习型位置编码来捕捉输入序列中的相对或绝对位置信息。

方法改进

相比于传统的循环神经网络和卷积神经网络，Transformer模型具有以下优点：

计算复杂度更低：由于自注意力机制只需要常数级别的操作次数，因此计算复杂度比循环神经网络低。
并行化更好：自注意力机制可以并行计算，因此可以在GPU上高效地实现。
更容易捕捉长距离依赖关系：由于自注意力机制可以直接考虑所有位置的信息，因此更容易捕捉到长距离依赖关系。

解决的问题

该论文提出的Transformer模型解决了传统神经机器翻译模型中存在的问题，如计算复杂度高、难以并行化以及难以捕捉长距离依赖关系等问题。通过引入自注意力机制，Transformer模型能够更好地处理序列数据，并取得了与当前最先进的神经机器翻译模型相当甚至更好的性能。

论文实验

本文主要介绍了Google提出的Transformer模型在机器翻译和英语句法分析两个任务上的表现，并与之前的研究进行了比较。具体来说，作者对Transformer模型进行了以下对比实验：

在WMT 2014英德机器翻译任务上，作者使用了大模型（Transformer（big）），并将其与其他单模型和ensemble进行了比较。结果表明，该模型的BLEU得分为28.4，超过了所有之前的模型，训练成本也较低。
在WMT 2014英法机器翻译任务上，作者同样使用了大模型，并将其与其他单模型和ensemble进行了比较。结果表明，该模型的BLEU得分为41.0，超过了所有之前的模型，训练成本也较低。
对于基础模型，作者使用了一个由最后5个检查点平均得到的单模型，在开发集上进行了测试。对于大模型，作者使用了最后20个检查点的平均值。作者使用了beam search算法，并设置beam size为4，长度惩罚系数为0.6。这些超参数是在开发集上经过实验选择的。在推理过程中，作者将最大输出长度设置为输入长度+50，但当可能时会提前终止。
为了评估Transformer的不同组件的重要性，作者对其基础模型进行了不同的变化，并测量其在英德机器翻译任务上的性能变化。具体来说，作者改变了注意力头数和注意力键和值维度的数量，保持计算量不变。作者还观察到减少注意力键大小会对模型质量产生负面影响。此外，作者还发现更大的模型和dropout对于避免过拟合非常有帮助。
为了评估Transformer是否能够推广到其他任务，作者进行了英语句法分析的任务。在这个任务中，输出受到强结构约束且比输入更长。作者使用了4层Transformer模型，并在Wall Street Journal部分的Penn Treebank数据集上进行了训练。作者还尝试了半监督学习，并使用了大约17M个句子的数据集。作者使用了词汇表来限制单词数量，并在推断过程中增加了最大输出长度。作者使用了beam search算法，并设置了beam size为21和长度惩罚系数为0.3。结果显示，尽管缺乏专门的任务调整，但作者的模型仍然表现出色，优于之前的所有报告模型，除了RNN序列到序列模型。

总的来说，本文通过多个对比实验证明了Transformer模型在机器翻译和英语句法分析等自然语言处理任务中的优异表现。

论文总结

文章优点

本文提出了一种新的序列转换模型——Transformer，该模型完全基于注意力机制，取代了在编码器解码器架构中常用的递归层。与使用递归或卷积层的架构相比，对于翻译任务，Transformer可以训练得更快，并且在WMT 2014英语到德语和WMT 2014英语到法语翻译任务上取得了新的最佳表现。此外，作者还计划将注意力机制应用于其他任务，并将其扩展到涉及输入和输出模态的问题，例如图像、音频和视频等。