Transformer:Attention Is All You Need

ACuliflower

已于 2022-11-03 17:21:03 修改

阅读量227

点赞数 1

分类专栏：深度学习文章标签： transformer 深度学习人工智能

于 2022-11-03 17:12:07 首次发布

本文链接：https://blog.csdn.net/qq_45821275/article/details/127673823

版权

深度学习专栏收录该内容

6 篇文章 2 订阅

订阅专栏

Transformer:Attention Is All You Need

在这里插入图片描述

Transformer结构 transformer论文地址：https://arxiv.org/pdf/1706.03762.pdf

1、Transformer整体架构

由图看出，transformer的整体结构由Encoder（左侧）和Decoder（右侧）组成。并且Transformer提出了一种简单的架构，仅仅依赖于注意力机制，而没有使用传统的RNN或者CNN。该模型仅仅针对机器翻译的任务，而后序提出了一系列使用了transformer的架构，不仅用到了NLP领域，还用到了CV领域。

为什么没有使用RNN？ 由于RNN的网络结构必须读入序列左侧得到结果后，才可以读入序列右侧的数据，进行运算，不可以进行并行运算，增加了时间成本。并且由于梯度的消失，RNN网络的时间序列不能太长。

为什么没有使用CNN？因为CNN，每次计算的是一个3x3的窗口，需要很多层的运算，才可以将一个较长的序列联系到一起，而attention只需要一层就可以把整体序列看到。

类比与CNN可以产生多通道（不同通道可以认为提取不同的特征），该作者提出了多头注意力机制（multi head attention），由于它有多个head，所以可以产生多个序列信息。

2.Encoder结构

对于整体的encoder而言，其输入序列（x₁ , x₂ ··· x_n），经过N层的Multi Head Attention层和FFN层（Feed-Forward Networks）得到（z₁ , z₂ ··· z_n）。

经过Multi Head Attention和其Add&Norm之后的计算公式为
$X = L a yer N or m (X + M u lt i He a d A tt e n t i o n (X))$
经过FFN和其Add&Norm之后的计算公式为
$X = L a yer N or m (X + F ee d F or w a r d (X))$
对于输入x序列，是由单词embedding和位置embedding（由于attention一次看一层，缺失了位置信息）相加而组成。对于单词embedding，可以采用Word2Vec、Glove、one-hot等编码方式，对于每个词都得到一个长度为d 的维度。对于位置embedding，使用PE表示，其使用公式得到，不可训练。

PE _(pos,2i) = sin( pos / 10000 ^(2i/d) ) 对于偶数维度 PE _(pos,2i+1) = sin( pos / 10000 ^(2i+1/d) ) 对于奇数维度

pos是在橘子中的位置，2i或者2i+1表示的是词embedding的维度。

Multi Head Attention层的结构：

在这里插入图片描述

左侧为self-attention（其中的Mask是在 Masked Multi-Head Attention中使用的），右侧为Multi-Head Attention。其中左侧的self-attention的计算公式为（很好的利用了并行化，减少了时间成本）：

在这里插入图片描述

右侧的多头注意力机制是为了方便提取多种不同的序列特征使用的，其输入的Q、K、V矩阵是n x d_model的，将其通过乘以一个d_modelx ( d_model/h ) 的可训练的矩阵得到n x ( d_model/h ) 大小的矩阵结构。Q、K、V分别有h个这种可训练的矩阵，分别经过自注意机制后，得到的h个n x ( d_model/h )的结构，这h个再进行concat连接成n x d_model的矩阵，然后经过一层Linear层。

Feed Forward层的结构：

单隐藏层的MLP,是一个两层的全连接层，第一层的激活函数为Relu，第二层不使用激活函数，公式如下：
$FFN (x) = ma x (0, R e l u (x w 1 + b 1)) w 2 + b 2$
其中间隐藏层将d_model增大了四倍，后一层将其减小了四倍，所以最终得到的d_model与原d_model相同。

LayerNorm的原理：

对于每个单词的embedding为d_model，假如d_model = 512，那么相当于在这512个元素上进行了norm归一化。

3.Decoder结构

对于整体的decoder而言，其输入序列（z₁ , z₂ ··· z_n），最终得到的是（y₁ , y₂ ··· y_m）的序列结构。并且其输入有两个，一个是z序列，另一个是y_t时刻之前得到的（y₁ , y₂ ··· y_t-1）序列，所以对于y序列，要先经过一层masked multi head attention（其将softmax之前，y_t-1之后的值都设为特别小的负数，然后经过softmax后值为0，即权重为0，见上侧self-attention结构图），对于z序列，当做K-V，对于y经过attention的序列，当做Q，进行multi head attention，最后经过FFN，然后进行N次操作，最终经过线性层和softmax层得到结果。其中的各结构与Encoder中的结构相同。