论文标题:Attention Is All You Need
论文链接:https://arxiv.org/abs/1706.03762
一 、概述
Transformer是一种新的架构,用来学习输入和输出之间的全局依赖关系。比起以往使用RNN(recurrent neural network)来处理NLP领域中的诸多任务,Transformer是一种全新的架构,其中规避开了recurrence架构,并且相比于RNN,其并行计算的能力更强(more parallelizable)。
二、模型架构
- 模型中的encoder和decoder
- 整体架构
大多数神经序列转导模型都有一个encoder-decoder结构。Decoder将输入 ( x 1 , x 2 , ⋯ , x n ) (x_{1},x_{2},\cdots ,x_{n}) (x1,x2,⋯,xn)映射到 z = ( z 1 , z 2 , ⋯ , z n ) z=(z_{1},z_{2},\cdots ,z_{n}) z=(z1,z2,⋯,zn),获得 z z z后,decoder会在每个时间步产生一个序列中的元素,直至生成整个序列 ( y 1 , y 2 , ⋯ , y m ) (y_{1},y_{2},\cdots ,y_{m}) (y1,y2,⋯,ym)。在每一个时间步,模型都是自回归的,也就是在生成下一个元素时使用先前生成的元素作为附加输入。
Transformer也使用了encoder-decoder架构,其具体架构图如下:
- Encoder
Transformer的encoder由6个相同的层堆叠而成,每一层有两个子层,其中第一个子层是multi-head attention层,第二个子层就是一个简单的前馈网络,在每个子层后面都有一个residual connection和layer normalization,也就是说每个子层的输出可以表示为:
L a y e r N o r m ( x + S u b L a y e r ( x ) ) LayerNorm(x+SubLayer(x)) LayerNorm(x+SubLayer(x))
S u b L a y e r ( x ) SubLayer(x) SubLayer(x)代表每个子层实现的函数。为了促使这些residual connection发挥作用,模型中的所有子层以及下面的embedding层,都会产生维度 d m o d e l = 512 d_{model}=512 dmodel=512的输出。
- Decoder
Transformer的decoder也是由6个相同的层堆叠而成,除了encoder中的两种子层,decoder还添加了第三种子层,也就是在encoder的输出上执行multy-head attention的一层。同样的每一层后面都有residual connection和layer normalization。图中decoder最下面的子层会被修改来防止每个位置attend到这个位置后面的元素。
- Attention
- Scaled Dot-Product Attention
Transformer架构中的self-attention机制是将query、key和value映射到输出,query、key和value都是向量,而且query和key维度都是 d k d_{k} dk,value维度是 d v d_{v} dv。每一个输入的token都对应一个query、key和value,我们将key与每一个query做点积,然后除以 d k \sqrt{d_{k}} dk,最后再使用一个 s o f t m a x softmax softmax函数来做归一化。所有token之间的attention都是并行计算的,因此我们使用 Q 、 K 、 V Q、K、V Q、K、V代表所有的query、key和value,计算公式如下:
A t t e n t i o n ( Q , K , V ) = s o f t m a x ( Q K T d k ) V Attention(Q,K,V)=softmax(\frac{QK^{T}}{\sqrt{d_{k}}})V Attention(Q,K,V)=softmax(dkQKT)V
该过程用图表示如下:
- additive attention和dot-product attention
最常用的两种attention的机制是additive attention和dot-product attention(multiplicative attention)。其中在上式中如果没有scaling factor 1 d k \frac{1}{\sqrt{d_{k}}} dk1,就是dot-product attention。Additive attention使用具有单个隐藏层的前馈网络来计算兼容性函数。两种attention在理论上的复杂度相同,但在实践中dot-product attention能使用优化的矩阵乘法运算,所以计算更快,同时由于它没有使用前馈网络,所以占用空间更小,所以transformer选用了dot-product attention。
- 为什么dot-product attention要被scaled
当 d k d_k dk较小时,两种attention的效果差不多,但如果 d k d_k dk较大时,dot-product attention相较于additive attention效果就会差一些。论文猜测这是因为当 d k d_k dk较大时,点积的值就会更大,容易进入 s o f t m a x softmax softmax函数的饱和区,因此要除以scaling factor 1 d k \frac{1}{\sqrt{d_{k}}} dk1。简单举个例子来验证上述猜测,假设 q q q和 k k k是独立且随机的,而且均值为 0 0 0,方差为 1 1 1,则它们的点积 q ⋅ k = ∑ i = 1 d k q i k i q\cdot k=\sum_{i=1}^{d_{k}}q_{i}k_{i} q⋅k=∑i=1dkqiki的均值为 0 0 0,方差就是 d k d_k dk。
- Multi-Head Attention
相比于使用 d m o d e l d_{model} dmodel维的query、key和value来做一次attention,论文发现,使用不同线性映射分别将输入映射到 d k 、 d k 、 d v d_k、d_k、d_v dk、dk、dv维度上 h h h次效果更好。所有 h h h次线性映射都是并行执行的,每次映射都会生成维度为 d v d_v dv的输出,这些 d v d_v dv维度的输出会被 concatenate起来然后再做一次线性映射得到最终的输出,concatenate以后再做一次线性变换是为了做一次融合,该过程的计算公式如下:
M u l t i H e a d ( Q , K , V ) = C o n c a t ( h e a d 1 , ⋯ , h e a d h ) W O w h e r e h e a d i = A t t e n t i o n ( Q W i Q , K W i K , V W i V ) MultiHead(Q,K,V)=Concat(head_{1},\cdots ,head_{h})W^{O}\\ \! \! where\; head_{i}=Attention(QW_{i}^{Q},KW_{i}^{K},VW_{i}^{V}) MultiHead(Q,K,V)=Concat(head1,⋯,headh)WOwhereheadi=Attention(QWiQ,KWiK,VWiV)
上式中 W i Q ∈ R d m o d e l × d k , W i K ∈ R d m o d e l × d k , W i V ∈ R d m o d e l × d v W_{i}^{Q}\in \mathbb{R}^{d_{model}\times d_{k}},W_{i}^{K}\in \mathbb{R}^{d_{model}\times d_{k}},W_{i}^{V}\in \mathbb{R}^{d_{model}\times d_{v}} WiQ∈Rdmodel×dk,WiK∈Rdmodel×dk,WiV∈Rdmodel×dv并且 W i O ∈ R h d v × d m o d e l W_{i}^{O}\in \mathbb{R}^{hd_{v}\times d_{model}} WiO∈Rhdv×dmodel。
通常,我们设置 h = 8 h=8 h=8,对于每次attention,我们设置 d k = d v = d m o d e l / h = 64 d_{k}=d_{v}=d_{model}/h=64 dk=dv=dmodel/h=64,由于维度变小,所以multi-head attention的总复杂度相对于single-head attention差不多。
下图展示了multi-head attention的过程:
- Transformer中attention的应用
Transformer中主要有三处地方用到了attention机制:
①在架构图decoder的中间部分,query来自于先前的decoder层,而key和value来自于encoder的输出,这样设计允许了decoder中的每一个位置都能attend到输入的序列的任何一个位置。这样的设计模仿了传统的seq-to-seq模型的encoder-decoder attention机制。
②Transformer的encoder使用了attention机制,每一个self-attention层的query、key、value都来自于前一层的输出,每个位置都能attend到前一层的所有位置。
③在架构图decoder的下面的部分,每个位置被允许attend到该位置之前包括该位置的地方,为了保证自回归属性,我们必须避免出现左向信息流。可以通过将不合法连接(当前位置右侧)的 scaled dot-product attention中
s
o
f
t
m
a
x
softmax
softmax函数的输入设置为$-\infty $来实现这一操作,这一部分被称为masked multi-head attention。
- Position-wise Feed-Forward Networks
除了attention子层以外,每一层都还包含一个前馈网络层,这个前馈网络层包含两个线性变换,中间有一个ReLU激活,其公式如下:
F F N ( x ) = m a x ( 0 , x W 1 + b 1 ) W 2 + b 2 FFN(x)=max(0,xW_{1}+b_{1})W_{2}+b_{2} FFN(x)=max(0,xW1+b1)W2+b2
这个前馈网络的输入和输出的维度都是 d m o d e l d_{model} dmodel,中间层的维度为 d f f = 2048 d_{ff}=2048 dff=2048。
- Embeddings and Softmax
使用已经训练好的embeddings来将输入和输出映射成维度为 d m o d e l d_{model} dmodel的向量。Decoder的输出会通过一个线性变换和 s o f t m a x softmax softmax层来被转换成预测下一个token的概率向量,然后再通过embedding层转换为 d m o d e l d_{model} dmodel维度的向量。在Transformer中我们在两个embedding层和 s o f t m a x softmax softmax层之前的线性变换层之间共享参数。在embedding层中,这些weight被乘以 d m o d e l \sqrt{d_{model}} dmodel。
- Positional Encoding
Transformer中没有循环和卷积结构,我们需要将输入序列的位置信息考虑进来。我们通过给输入embedding加上一个positional encodings来实现这一目的。Positional encodings的维度也是 d m o d e l d_{model} dmodel,这样它才可以和input embedding加起来。Positional encodings有很多选择,包括会在训练过程中被学习的和固定的。
在Transformer中选用不同频率的正弦和余弦函数:
P E ( p o s , 2 i ) = s i n ( p o s / 1000 0 2 i / d m o d e l ) P E ( p o s , 2 i + 1 ) = c o s ( p o s / 1000 0 2 i / d m o d e l ) PE_{(pos,2i)}=sin(pos/10000^{2i/d_{model}})\\ PE_{(pos,2i+1)}=cos(pos/10000^{2i/d_{model}}) PE(pos,2i)=sin(pos/100002i/dmodel)PE(pos,2i+1)=cos(pos/100002i/dmodel)
上式中 p o s pos pos是位置, i i i是维度。从上式可以看出,positional encodings的不同的维度对应不同的正弦信号,这些正弦信号的波长是一个几何级数,从 2 π 2\pi 2π到 10000 ⋅ 2 π 10000\cdot 2\pi 10000⋅2π。
选择这个函数的原因是假设这样可以允许模型更容易学习到相对位置的信息,因为对于任意固定的偏移 k k k, P E p o s + k PE_{pos+k} PEpos+k能够被表示成 P E p o s PE_{pos} PEpos的线性函数。解释一下这一点,我们知道正余弦函数的和角公式如下:
s i n ( x + y ) = s i n ( x ) c o s ( y ) + s i n ( y ) c o s ( x ) c o s ( x + y ) = c o s ( x ) c o s ( y ) − s i n ( y ) s i n ( x ) sin(x+y)=sin(x)cos(y)+sin(y)cos(x)\\ cos(x+y)=cos(x)cos(y)-sin(y)sin(x) sin(x+y)=sin(x)cos(y)+sin(y)cos(x)cos(x+y)=cos(x)cos(y)−sin(y)sin(x)
利用上述公式我们可以得到:
P E ( p o s + k , 2 i ) = P E ( p o s , 2 i ) P E ( k , 2 i + 1 ) + P E ( p o s , 2 i + 1 ) P E ( k , 2 i ) P E ( p o s + k , 2 i + 1 ) = P E ( p o s , 2 i + 1 ) P E ( k , 2 i + 1 ) − P E ( p o s , 2 i ) P E ( k , 2 i ) PE_{(pos+k,2i)}=PE_{(pos,2i)}PE_{(k,2i+1)}+PE_{(pos,2i+1)}PE_{(k,2i)}\\ PE_{(pos+k,2i+1)}=PE_{(pos,2i+1)}PE_{(k,2i+1)}-PE_{(pos,2i)}PE_{(k,2i)} PE(pos+k,2i)=PE(pos,2i)PE(k,2i+1)+PE(pos,2i+1)PE(k,2i)PE(pos+k,2i+1)=PE(pos,2i+1)PE(k,2i+1)−PE(pos,2i)PE(k,2i)
上述正余弦函数的方法是固定的positional encodings,同样地我们也可以使用学习得到的positional embeddings。之所以选择正余弦的方式是因为这种方式可能允许模型推断比训练时遇到的更长的序列。
- 其他
李宏毅老师有关模型架构的讲解:https://www.jianshu.com/p/e305771b1b54
三、为什么选择Self-Attention
在该部分我们将self-attention与循环和卷积网络进行对比。我们对比以下三个指标:
①每层总的计算复杂度;
②可以并行的计算量,通过所需的最小顺序操作数来衡量;
③网络中长程依赖的路径长度。
很多序列转导模型的一个关键任务是学习长程依赖关系。一个影响学习该依赖关系的关键因素是前向和后向信号必须在网络中传播的长度。输入和输出序列中任意位置组合的这些路径越短,越容易学习长程依赖关系,因此选择对比不同层组成的网络中任意两个输入和输出位置之间的最大路径长度。
对比结果如下表所示:
表中 n n n未序列长度, d d d为表示的维度, k k k是卷积核的大小, r r r是受限self-attention的邻域大小。在序列长度很长时,可以考虑限制每个位置只能attend到长度为 r r r的邻域内,这样可以降低计算复杂度,但会增大最大路径长度。Self-attention有另一个好处就是有更好的可解释性。
四、训练
- 优化器
使用Adam优化器进行训练,设置 β 1 = 0.9 , β 2 = 0.98 , ϵ = 1 0 − 9 \beta _{1}=0.9,\beta _{2}=0.98,\epsilon =10^{-9} β1=0.9,β2=0.98,ϵ=10−9,另外根据以下公式调整学习率:
l r a t e = d m o d e l − 0.5 ⋅ m i n ( s t e p _ n u m − 0.5 , s t e p _ n u m ⋅ w a r m u p _ s t e p − 1.5 ) lrate=d_{model}^{-0.5}\cdot min(step\_num^{-0.5},step\_num\cdot warmup\_step^{-1.5}) lrate=dmodel−0.5⋅min(step_num−0.5,step_num⋅warmup_step−1.5)
利用这个公式可以使得在 w a r m u p _ s t e p warmup\_step warmup_step个trainging step以内,学习率线性增长,随后会将学习率与training step的平方根成比例地缩小。我们使用 w a r m u p _ s t e p = 4000 warmup\_step=4000 warmup_step=4000。
- 正则化
- Residual Dropout
在每个子层的输出被与输入相加和做layer normalization之前要被dropout。另外,在encoder和decoder中也会将embeddings与positional encodings的和做dropout。我们设置 P d r o p = 0.1 P_{drop}=0.1 Pdrop=0.1。
- Label Smoothing
在训练时,我们使用label smoothing的值为 ϵ l s = 0.1 \epsilon _{ls}=0.1 ϵls=0.1。 这让模型不易理解,因为模型学得更加不确定,但提高了准确性和BLEU得分。
五、模型效果
- 机器翻译
对比了Transformer在WMT 2014 English-to-German和WMT 2014 English-to-French两个数据集上与其他模型的效果:
- 模型变种
对比了Transformer的不同架构的效果: