【PTM】Transformer：Attention Is All You Need

最新推荐文章于 2025-02-03 07:30:00 发布

阿泽的学习笔记

最新推荐文章于 2025-02-03 07:30:00 发布

阅读量698

点赞数 1

分类专栏： Embedding 数据挖掘文章标签：算法编程语言 python 神经网络机器学习

本文链接：https://blog.csdn.net/qq_27075943/article/details/106244465

版权

本文深入探讨了谷歌2017年提出的Transformer网络架构，该架构摒弃了RNN，完全基于Attention机制，解决了长序列处理和并行效率问题，显著提升了机器翻译的质量。文章介绍了Transformer的Self-Attention、Multi-Head Attention和Positional Encoding等核心概念，以及模型的训练过程，展示了其对比Seq2Seq模型的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天阅读的来自谷歌大脑的同学于 2017 年发表的论文《Attention Is All You Need》，目前论文被引次数高达 6100 次。

Attention 机制是 Bengio 等同学在 2014 年提出的，并广泛应用于深度学习各个领域，如计算机视觉、NLP 等。其中，Seq2Seq 模型采用了 RNN 和 Attention 的结合成功应用于机器翻译领域，在诸多任务中都有显著的提升。

在这篇文论文中，作者提出了 Transformer 网络架构，其摒弃了传统的 RNN、LSTM 架构，完全基于 Attention 机制，并在机器翻译领域获得明显的质量提升。

1. Introduction

传统的基于 RNN 的 Seq2Seq 模型由于难以处理长序列的的句子，且因顺序性也无法并行处理。而完全基于 CNN 的 Seq2Seq 模型虽然可以实现并行化，但是非常耗内存。

Self-attention，也称为 intra-attention，是一种将序列的不同位置联系起来并计算序列表示的注意力机制。Self-attention 已成功应用于各个任务中，包括阅读理解、摘要生成、句子表示等任务中。

而本文介绍的 Transformer 是一个完全使用 Self-attention 的模型，即解决了计算量和并行效率的问题，又提高了实验的结果。

由于论文的细节部分太少而我又缺少很多必备知识，而在查阅资料时发现了 Jay Alammar 大佬的博客，大佬采用了非常精彩的视频和图片介绍了 Transformer 模型和 Seq2Seq 模型，大大降低了我的学习成本。为了方便和我有类似背景（缺少相关知识）的同学看这篇文章时不至于太痛苦，所以本片主要以 Jay Alammar 大佬的博文翻译为主。

2. Pre-requisites

本节内容来源于 Jay Alammar 的博客，非常感激大佬通过如此精彩的视觉方式将模型极其直观的表达出来。

2.1 Seq2Seq

Sequence-to-sequence 模型（以下简称 Seq2Seq）是一种深度学习模型，其论文《Sequence to Sequence Learning with Neural Networks》由谷歌的同学于 2014 年发表于 NIPS 会议，目前已有超过 9400 次的引用。Seq2Seq 的应用广泛，常应用于机器翻译，语音识别，自动问答等领域。谷歌翻译也在 2016 开始使用这个模型。接下来介绍的 Seq2Seq 是没加 Attention 的传统 Seq2Seq，而我们现在经常说的 Seq2Seq 是加了 Attention 的模型。

Seq2Seq 可以理解为输入一个序列，然后经过一个黑盒后可以得到另一个序列：