【Transformer学习笔记】Transformer开山之作: Attention is All you Need

本文链接：https://blog.csdn.net/sjflsahfisaojfsa/article/details/121778172

这里写自定义目录标题

一、transformer整体结构
二、why Transformer
三、Transformer逐层剖析
四、其他的
推荐的博客&视频

至今，transformer结构的网络可以说已经占据了RNN领域的大半壁江山，在各大RNN竞赛中基本都出现了霸榜的情况。
本文主要作transformer的开山之作《Attention is All you Need》的解读.

一、transformer整体结构

首先先来看一看论文原文中整体结构图。论文中给出的结构可以看成是一个用于机器翻译的Transformer的结构。
transformer结构图
相信大部分第一次看的人肯定都是很懵逼的，因为它和我们之前看的大部分以卷积为基本单位的RNN系列网络不同，他有很多奇奇怪怪的分支箭头。但是相信在完整了解了Transformer的整体结构后，会发现其实这张图十分简洁且清晰（不过还是想吐槽一下这个画的像太极一样的Positional Encoding）。

可以看到，Transformer可以从中间切为两半，左边的那部分是Encoder（编码器），右边那部分是Decoder（解码器）。编码器和解码器都拥有一个输入，但是输入的内容略有不同，编码器部分的输入是待翻译的句子，而解码器的输入是已经翻译了一部分的翻译过后的句子，这个地方有一点绕，本文将在后面进行解释。最后，在解码器最上方还有一个输出层，用来进行输出。

二、why Transformer

事实证明，transformer在nlp的各个领域都能大放异彩，成为了后起之秀。那么transformer到底为什么会比RNN效果要好呢？可以先看看下图：
在这里插入图片描述
图源自于一文搞懂RNN（循环神经网络）基础篇

如图，RNN系的模型中，最基本的结构是一个cell，如图中左侧所示。RNN的计算过程就是输入的数据分时序的反复经过相同的cell结构。
如输入：[我，爱，学，习]，这四个字符会按顺序依次投入网络中进行计算。

图中的 $X$ 表示某个输入的字符，如【我】或者是【爱】， $O$ 表示的是输出，放在机器翻译的场景中， $X$ :【我】输入对应的输出 $O$ 是英文【i】。 $S$ 表示的是隐藏层，其中蕴含着本次输入和之前输入的信息。 $W$ ， $V$ ， $U$ 都是参数，其中 $U$ 用于对输入进行编码， $W$ 用于对隐藏层编码， $V$ 用于进行解码。

RNN的输入通常会取上一个隐藏层的输出 $S_{t-1}$ 经过 $W$ 编码作为本层来源于之前信息的输入， $X_{t}$ 进行 $U$ 编码后作为本层的信息输入，二者经过融合后得到本隐藏层 $S_{t}$ ，经过 $V_{t}$ 的解码后的到输出 $O_{t}$ ，而 $S_{t}$ 又将继续传递下去。

值得注意的是RNN使用的是一套参数,也就是 $W$ ， $V$ ， $U$ 在所有的timestep（可以理解为每个输入的字）中是一致的。不难想想RNN来源于上层的 $S_{t-1}$ 信息在经过后续无数次的循环后可能会有所丢失。通俗意义上讲，对于一个句子而言，后面的部分在翻译的时候很可能就会无法顾及开头的信息，因为信息在传递的过程中丢失了。