常学常新：《Attention Is All You Need》万字解读！

最新推荐文章于 2025-03-30 00:45:03 发布

AI信息Gap

最新推荐文章于 2025-03-30 00:45:03 发布

阅读量2.4k

点赞数 16

文章标签：人工智能 ai gpt OpenAI chatgpt

本文链接：https://blog.csdn.net/weixin_40774379/article/details/139667926

版权

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“外挂”，所以创建了“AI信息Gap”这个公众号，专注于分享AI全维度知识，包括但不限于AI科普，AI工具测评，AI效率提升，AI行业洞察。关注我，AI之路不迷路，2024我们一起变强。

语言理解是对话的基础。当我们和ChatGPT这类AI工具对话时，大家有没有疑惑过，为什么AI模型能够理解我们所提的问题，所说的内容？

这一切的核心在于自然语言处理（NLP）和深度学习技术。LLM模型，如GPT系列，能够通过复杂的神经网络架构来分析和理解文本，在输入序列中找到相关信息，并在生成响应时利用这些信息。当我们输入一个问题或陈述时，AI模型会首先将文本分解成更小的单元（如单词或词组），然后利用预训练的语言模型来预测这些单元之间的关系和可能的下一步。预训练模型经过大量文本数据的训练，掌握了语言的结构、语法、语义以及各种上下文关系，从而能够理解并生成符合人类语言习惯的回答。

在一众神经网络中，当下最靓的仔莫过于Transformer架构。

2017年，一篇名为《Attention Is All You Need》的论文横空出世，并在接下来的几年内直至现在制霸了整个生成式AI领域。在这篇具有里程碑和突破性意义的论文中，8名研究学者首次提出了Transformer这种神经网络架构，其独特之处在于完全基于注意力机制，摒弃了传统的循环和卷积操作。通过自注意力机制（self-attention），Transformer能够有效捕捉输入序列中的长距离依赖关系，使得模型在处理长文本时更为高效和准确。多头注意力机制（multi-head attention）则进一步增强了模型的表达能力，使其能够同时关注输入序列中的不同部分，捕捉更加复杂的语义关系。

无论是机器翻译、文本生成，还是问答系统，Transformer都显著提升了任务的效果和效率。引领了生成式AI浪潮，大家所熟知的GPT，全称Generative Pre-trained Transformer，就是基于Transformer架构开发的。这也是GPT的命名由来。GPT系列模型通过预训练和微调提高了模型在NLP任务中的性能。预训练阶段，模型在海量文本数据上进行训练，学习语言的广泛知识和复杂模式。随后，通过微调，模型在特定任务上进一步优化，以达到更好的效果。

今天，就让我们把目光聚焦在这篇纲领之作——《Attention Is All You Need》。

Abstract 摘要

《Attention Is All You Need》研究论文由Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N. Gomez、Lukasz Kaiser和Illia Polosukhin于2017年发表。这篇论文介绍了一种全新的神经网络架构——Transformer，它完全基于注意力机制，摒弃了传统的循环神经网络（RNN）和卷积神经网络（CNN）中的循环和卷积操作。

当前，主流的序列转换模型（Sequence Transduction Model）大多建立在复杂的循环神经网络（RNN）或卷积神经网络（CNN）之上，这些模型通常配备有编码器（encoder）和解码器（decoder）。其中表现最出色的模型还会利用注意力机制来加强编码器与解码器之间的联系。我们提出了一种全新的网络架构——Transformer，它完全基于注意力机制，彻底摆脱了对循环和卷积操作的依赖。通过在两项机器翻译任务上的实验，我们发现这种模型不仅在翻译质量上更胜一筹，而且在并行处理能力和训练效率上都有显著提升。在WMT 2014英语到德语的翻译任务中，我们的模型BLEU得分达到了28.4，相较于之前的最佳成绩，包括那些集成了多个模型的结果，我们的得分提高了2个点（BLEU）。在英语到法语的翻译任务中，我们的模型仅用3.5天和8个GPU就训练出了达到41.8 BLEU得分的单一模型，这一成本远低于文献中报道的最佳模型。此外，我们还证明了Transformer模型不仅在大规模数据集上表现出色，即使在数据有限的情况下，也能成功应用于英语句法分析任务，显示出了极强的泛化能力。