[论文阅读] Transformer(Attention Is All You Need)

最新推荐文章于 2022-07-31 16:19:45 发布

BENULL

最新推荐文章于 2022-07-31 16:19:45 发布

阅读量307

点赞数

分类专栏：论文阅读文章标签：深度学习 nlp

本文链接：https://blog.csdn.net/qq_32815807/article/details/116886686

版权

论文阅读专栏收录该内容

19 篇文章 1 订阅

订阅专栏

[论文阅读] Transformer(Attention Is All You Need)

单位: Google

会议: NeurIPS 2017

论文地址: arxiv

代码: tensorflow/tensor2tensor official

在这里插入图片描述

Seq2Seq

在这里插入图片描述

Encoder和Decoder在早期一般是RNN模块，后来引入了LSTM或者GRU模块，核心思想都是通过Encoder编码成一个表示向量，即上下文编码向量，然后交给Decoder来进行解码，翻译成目标语言

RNN的局限

对于不同输入和输出长度，中间的上下文编码向量长度固定的，仅仅靠一个固定长度的上下文编码向量包含的信息有限
RNN 本质是一个马尔科夫决策过程无法很好地学习到全局的结构信息
难以并行化，速度慢

CNN

在 FaceBook 的论文(Convolutional Sequence to Sequence Learning）中纯粹使用CNN也完成了 Seq2Seq 的学习

CNN 方便并行，而且容易捕捉到一些全局的结构信息

但CNN 事实上只能获取局部信息，是通过层叠来增大感受野

在这里插入图片描述

在Transformer中，完全抛弃了RNN和CNN等网络结构，仅仅采用Attention机制就取得了很好的效果，具有更好的质量，同时具有更高的并行性和更少的训练时间

这篇论文主要贡献之一是它表明了内部注意力在机器翻译（甚至是一般的 Seq2Seq 任务）的序列编码上是相当重要的，而之前关于 Seq2Seq 的研究基本都只是把注意力机制用在解码端。

Transformer Architecture

在这里插入图片描述
Transformer结构可以表示为Encoder和Decoder两个部分

Encoder和Decoder主要由Self-Attention和Feed-Forward Network两个组件构成

Self-Attention由Scaled Dot-Product Attention和Multi-Head Attention两个组件构成。

Self-Attention

Attention 机制来自于人类视觉注意力机制,人们视觉在感知东西的时候一般不会是一个场景从到头看到尾每次全部都看，而往往是根据需求观察注意特定的一部分

在这里插入图片描述注意力函数的本质可以被描述为一个查询（query）到一系列（键key-value值)对的映射

给定一个和任务相关的查询查询向量 q，通过计算与Key的注意力分布并附加在Value上，从而计算Attention Value

引入attention的好处

注意力允许解码器以不同程度的权重利用到编码器的所有信息
通过检查注意力分布，可以看到解码器在关注什么，可解释性

Self-Attention的QKV来自同一个输入，也就是说在序列内部做 Attention，寻找序列内部的联系，故称为自注意力层

Scaled Dot-Product Attention

在这里插入图片描述
$\operatorname{Attention}(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V})=\operatorname{softmax}\left(\frac{\boldsymbol{Q} \boldsymbol{K}^{\top}}{\sqrt{d_{k}}}\right) \boldsymbol{V}$

计算过程

对每个输入单词 $x^1,x^2,x^3$ 转化成嵌入向量
根据嵌入向量分别得到 $q$ ， $k$ ， $v$ 三个向量
然后将 $q$ 和所有 $k$ 进行点乘计算得 $\alpha$
通过SoftMax转换为概率分布 $\hat{\alpha}$
将概率分布和所有 $v$ 进行加权求和得到输出 $b$

在这里插入图片描述

为什么scaled?

可参考transformer中的attention为什么scaled?

Multi-Head Attention

在这里插入图片描述
$\text { head }_{\mathrm{i}}=\operatorname{Attention}\left(Q W_{i}^{Q}, K W_{i}^{K}, V W_{i}^{V}\right)$

$\left.\operatorname{MultiHead}(Q, K, V)=\text { Concat(head }_{1}, \ldots, \text { head }_{\mathrm{h}}\right) W^{O}$

Multi-Head Attention相当于多个不同Scaled Dot-Product Attention的集成，以8为例子，Multi-Head Attention步骤如下：

将数据 $X$ 分别输入到8个不同的Scaled Dot-Product Attention中，得到8个加权后的特征矩阵 $Z_{i}, i \in\{1,2, \ldots, 8\}$
将8个 $Z$ 按列拼成一个大的特征矩阵
特征矩阵经过一层全连接得到输出 $Z$

可以类比CNN中同时使用多个卷积核的作用，多头的注意力有助于网络捕捉到更丰富的信息，每个head关注的点可能不一样，可以处理不同的任务

Positional Encoding

transformer内部没有类似RNN的循环结构，没有捕捉顺序序列的能力，无论句子结构怎么打乱，transformer都会得到类似的结果

为了解决这个问题，在编码词向量时会额外引入了位置编码向量

将每个位置编号，然后每个编号对应一个向量，通过结合位置向量和词向量，就给每个词都引入了一定的位置信息，这样 Attention 就可以分辨出不同位置的词了

在这里插入图片描述

将向量的512维度切分为奇数行和偶数行
偶数行采用sin函数编码，奇数行采用cos函数编码
然后按照原始行号拼接

由于有
$\sin (a+\beta)=\sin \alpha \cos \beta+\cos a \sin \beta \\ \cos (\alpha+\beta)=\cos a \cos \beta-\sin \alpha \sin \beta$
所有的 $PE_{pos+k}$ 可以用 $PE_{pos}$ 线性表出，表达了相对位置信息