Transformer论文理解

最新推荐文章于 2024-03-12 23:06:55 发布

Rising_Flashlight

最新推荐文章于 2024-03-12 23:06:55 发布

阅读量498

点赞数 1

本文链接：https://blog.csdn.net/rising_shit/article/details/118037877

版权

Transformer论文理解

一、背景

Attention的应用感觉非常广泛，因此为了提升一下自己对Attention的理解就读了 $Attention\ Is\ All\ You\ Need$ [1]这篇文章，同样受到了很大的启发。虽然我感觉文章讲得还是挺乱的，我就大致按照我的理解，按照我理解一个模型的思路去讲讲。

二、模型结构

在这里插入图片描述

$图一\ Transformer的结构$

其实我感觉可能因为我没get作者的逻辑，所以不太能理清作者讲得顺序，我还是更喜欢从输入到输出，一步接着一步来讲，前一步和下一步进行联系，这样能更直观的理解，因此我也会这样讲。

2.1 Input Embedding

这个就是一个全连接层，将n维的输入转换为 $d_{model}$ 维的，一般 $d_model$ 会选为512。值得一提的是，这里的全连接矩阵与Output Embedding和Linear（后文会提到的 $p r e - s o f t m a x$ ）会进行参数共享，即是同一个矩阵。

2.2 Positional Encoding

由于Transformer几乎没有位置信息，因此需要给输入的表征里蕴含位置信息，因此作者使用了一种Positional Encoding的方式，即
$对于偶数位\ +=\sin(pos/10000^{2i/d_{model}})\\ 对于奇数位\ +=\cos(pos/10000^{2i/d_{model}})$
然后取得了很好的效果，感觉非常神奇，可能attention自己就能学到这种时序依赖关系？

2.3 Encoder层

这里将2.2的结果输入到一个Encoder层，再将Encoder层的结果再输入到Encoder层，如此重复6次，再输入到后面，而Encoder层主要又由下面四个小部分一步一步构成。

2.3.1 Multi-Head Attention

这个是我觉得是Transformer最巧妙的地方

首先是提出了一种称为Scaled Dot-Product Attention的注意力机制。
在这里插入图片描述

$图2\ Scaled\ Dot-Product\ Attention$
注意力机制按我的理解就是为了聚合一个sequence里的重要信息，本文改良的注意力机制的式子为
$softmax(\frac{QK^T}{\sqrt{d_k}})V$
其中，Q被称为query，K被称作key，V被称作value，均为 $batchsize * d_{model}$ 。我觉得形象上的理解，就是有一个询问query，要去找到value中对query重要的部分，那怎么做呢，先让query和某个能形容它重要性的key相乘，得到之后再去和V相乘即可，K一般就是V。在encoder中Q=K=V，都是2.2的以batchsize堆叠的输出。decoder中的会再解释。

文中指出，除以 $\sqrt{d_k}$ 是为了防止梯度爆炸。

接着呢才是multi-head的部分。
在这里插入图片描述

$图3\ 多头注意力机制$
Q、K、V还是上面那个Q、K、V，但是呢，考虑到一次的Attention可能没有足够的能力去学到所有的信息，那就学 $h$ 个矩阵 $W_i^Q、W_i^k、W_i^v$ ，将Q、K、V映射到不同的维度上去，再拼到一起，作为注意力机制最后的结果，即
$Concat(head_1,\cdots, head_h)W^O\\ head_i = Attention(QW_i^Q,KW_i^K,VW_i^V)$
其中 $W_i^Q$ 是一个 $d_{model}\times d_k$ 的矩阵， $W_i^K$ 是一个 $d_{model}\times d_k$ 的矩阵， $W_i^V$ 是一个 $d_{model}\times d_v$ 的矩阵， $W_O$ 是一个 $hd_v\times d_{model}$ 的矩阵，用来再归一成 $d_{model}$ ，一般h=8， $d_k=d_v=d_{model}/h=64$

2.3.2 Add & Norm

这里主要是使用了一个残差链接的方法，即将前一部分的结果和前前一部分的结果加起来，这里是multi-head-attention的结果和encoder层的输入加起来，其他部分也可以通过图1来看。加完了之后再将结果通过一个LayerNorm层，这里文章直接引用了一篇文章的方法，应该就是一个LayerNorm的方法，即本层是
$out = LayerNorm(pre(out)+pre_pre(out))$

2.3.3 Feed Forward

这里主要是两层全连接，只不过过完第一层全连接之后加了个RELU，即
$out = max(0,xW_1+b_1)W_2+b_2$

2.3.4 Add & Norm

同2.3.2

2.4 Output Embedding & Positional Encoding

这个和2.1和2.2基本相同，只是把目标串进行了Embedding，而且由于预测的往往是下一个，所以这个output要输入的是下一个时间的结果，Embedding之后和2.2同样做Positional Encoding即可。又值得一提的是，本文有两处left和right和直观来看都是相反的，但代码和直观是一样的。

2.5 Decoder

Decoder和Encoder结构类似，只是增加了一个Masked的Multi-Head Attention，也是整个Decoder层被叠了6遍，一个Decoder层内部总共分为6部分。

2.5.1 Masked Multi-Head Attention

这里基本和2.3.1的Multi-Head Attention一致，Q和K和V都是堆叠成的output。不过注意到Q和K矩阵相乘的时候，它的几何意义是Q的每一个时间点，去和K的每一个时间点做点积，这样会和一些未来时刻的信息做交互，这样显然是不行的，因此我们在Q和K矩阵相乘之后，要去Mask掉与未来做交互的位置，如图2所示，然后再得到结果。

2.5.2 Add & Norm

同2.3.2

2.5.3 Multi-Head Attention

和2.3.1类似，不过重要的是K矩阵和V矩阵都是Encoder层最后的输出，只有Q矩阵是2.5.2的输出

2.5.4 Add & Norm

同2.3.2

2.5.5 Feed Forward

同2.3.3

2.5.6 Add & Norm

同2.3.2

2.6 Linear & Softmax

目前模型通过2.5之后，得到的是一个 $Batchsize * d_{model}$ 的矩阵，然后我们最后肯定想知道，预测出每一个词的概率，这时呢，我们再利用Input Embedding学到的 $N*d_{model}$ 的矩阵，对Batchsize里的每一个，和Input Embedding用到的矩阵的每一项做点积，得到一个数值，这样就得到了结果为每个词的置信度了，最后通过一个softmax就得到了概率，这样就搭建好了transformer。

三、变种

在网上[2]看到Transformer好像还有增强版，分别为Universal Transformer和Transformer-XL，不过暂时没有特别多时间去看，没准有机会可以看。

Universal Transformer 重新将recurrence引入transformer，并加入自适应的思想，使得transformer图灵完备，并有着更好的泛化性和计算效率
Transformer-XL 在transformer的基础上加入Segment-level Recurrence和相对位置编码，从而可以处理超长输入序列，并且更加高效。

特别地，在发博客的时候刚好看到了kdd-cup 2021的结果，Transformer在图的表示学习上，居然吊打了一众图神经网络，该作法为Graphormer，我感觉我可以先去读读GCN, GAT之类的再仔细了解一下图神经网络的基础，然后有机会的话再去看看这些Graphormer这个神奇的模型。

四、代码

在网上找到了一段理得很清楚的Transformer的源码，而且有很清楚的讲解，有空可以看看[3]。

五、引用

[1] https://arxiv.org/abs/1706.03762

[2] https://zhuanlan.zhihu.com/p/85612521

[3] https://blog.csdn.net/qq_18310041/article/details/95787616

Rising_Flashlight

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Transformer论文理解

Transformer论文理解文章目录Transformer论文理解一、背景二、模型结构2.1 Input Embedding2.2 Positional Encoding2.3 Encoder层2.3.1 Multi-Head Attention2.3.2 Add & Norm2.3.3 Feed Forward2.3.4 Add & Norm2.4 Output Embedding & Positional Encoding2.5 Decoder2.5.1 Masked Mul
复制链接

扫一扫