Notes On Attention Is All You Need

最新推荐文章于 2024-09-30 18:26:55 发布

一夜风雨一夜歌

最新推荐文章于 2024-09-30 18:26:55 发布

阅读量127

点赞数

分类专栏：机器学习笔记文章标签：机器学习 nlp 人工智能

本文链接：https://blog.csdn.net/With_God/article/details/115615465

版权

机器学习笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Notes On “Attention Is All You Need”

The fundamental constraint of sequential computation: The batching across examples limited by memory

NLP序列编码

NLP基本思路，先将句子分词，然后将每个词转化为对应词向量，这样由单词拼接而成的句子就对应了一个矩阵 $X=(x_1,x_2,\dots,x_n)$ ，其中 $x_i$ 就对应第 $i$ 个单词的词向量，维度为 $d$ ，问题转化为对 $X$ 这个大小为 $n\times d$ 的矩阵进行编码。

传统方法的采取RNN的方案：

sequence model : $h_t=f(h_{t-1},x_t) \quad h_t$ 这里表示 $\text{position } t$ 时hidden state
Pros：结构简单，适合序列建模
Cons：难以并行，在序列长度较长时训练速度慢；与此同时，当序列长度较长时，学习相距较远的两个向量关系的操作数随他们间距离的增长而增加，因此就很难学习到两个相距远的向量之间的关系

Transformer：直接采用Attention获取词向量之间的关系，简单粗暴的直接事先一步到位获取全局信息以供后续利用。
$y_t=f(x_t,A,B)$
文章中主要都是令 $A = B = X$ ，这样就比较得出 $x_t$ 与 $X$ 中每个向量的相似度

Attention层

Attention定义

$Attention(Q,K,V)=softmax\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

这里的 $Q, K, V$ 分别对应 $q u e r y, k e y, v a l u e$ ， $K, V$ 依次对应，可以理解为 $k e y - v a l u e$ 对；

具体的 $Q=(q_1,q_2,\dots,q_n),K=(k_1,k_2,\dots,k_n)$ ，其目的就在于用 $q_i$ 与 $K$ 中每一个向量作比较，得出 $q_i$ 与 $K$ 中每一个向量的相关度，从而以这一个相关度对 $V$ 中的向量做一个加权平均。

$s o f t m a x$ 作用：将 $QK^T$ 得到的向量权值归一化（毕竟我们是在做加权平均）

$\sqrt{d_k}$ 作用：在维度 $d_k$ 较大时， $q_i \cdot k_j$ 这个点乘的积过大，此时 $s o f t m a x$ 得到的梯度过小，不利于学习

为什么是 $Q\cdot K$ 这样的点乘形式：事实上，我们的目的只是求 $Q$ 与 $K$ 的相关度，并不一定要使用点积；论文中提到也可以使用一个前馈神经网络来完成这个过程，但是实验表明在经过放缩后的点积即使在 $d_k$ 较大时也能取得与前馈网络相近的性能，此时使用点积显然就更加方便

Multi-Head Attention

这里其实可以类比CNN中的多重卷积：

CNN中使用多重卷积从而提取原始数据的不同特征
那Attention机制也自然可以通过在不同权值的意义下做多次Attention从不同的表达子空间的不同位置获取注意力信息

具体而言，做 $h$ 次时:
$head_i=Attention(QW_i^Q,KW_i^K,VW_i^V)\\ Multihead(Q,K,V)=Concat(head_1,\dots,head_h)W^O$
前面是分别做Attention，后面是将这些分别做出来的结果拼接在一起；而这个过程可以并行而加速

Transformer中所有的Attention都是使用的Multi-Head Attention，后面就不再强调了

Applications of Attention in Transformer

Transformer中在三个不同的地方利用了Attention机制：

“Encoder-Decoder Attention” 层中， $q u e r y$ 来自于Decoder层上一层的输出， $k e y, v a l u e$ 均来自于Encoder层的输出，这让Decoder中每一个位置都能找到他在输入序列中大致的位置；从NLP中文本翻译的角度来理解，可以认为作用是将已输出的目标语言句子 $X$ 与原始语言句子 $Y$ 进行比较从而完成对齐，从而确认下一个应当翻译的单词应该是哪个单词
Encoder层中内部的Self-Attention
Encoder层中内部的Self-Attention（关于Self-Attention的具体解释见下）

Self Attention

文章最具突破性的的一点就是Self Attention在模型中的多次应用，在Encode以及Decode部分都应用了Self Attention的思路

而所谓Self Attention就是在前面的表达式中 $Q = V = K$ 的Attention，也即 $A t t e n t i o n (X, X, X)$ ；

前面我们已经提到， $X$ 是输入的词向量序列，那么这个 $A t t e n t i o n (X, X, X)$ 就是通过将 $X$ 中的每一个向量 $x_i$ 与其他的所有向量做比较，从而得出 $X$ 中所有元素的相互关系

事实上，我们注意到在Transformer模型中（至少在这篇论文中）， $K = V$ 是一直成立的，另外出现的只有形如 $A t t e n t i o n (X, Y, Y)$ 这样的注意力模型；

Position Embedding

事实上，如果仅仅是把原本的词向量顺序放在一起形成 $X$ ，并不能够有效反映原文本序列中的单词顺序关系

例如：我们考虑将 $X$ 中两个向量的位置相互交换，考虑 $A t t e n t i o n (Y, X, X)$ ，显然此时由于 $K, V$ 中对应位置的向量位置都被交换了，那么最终这样与不交换会得到相同的结果；但这显然是不符合事实的：原文中两个单词交换了顺序显然应当显著影响翻译结果！

因此我们应当将单词的位置信息也加入原本的词向量，这样在做Self Attention时才能有效反映单词间的位置关系

而Google给出的方法是先做出一个位置向量，定义如下:
$\begin{cases} PE_{(pos,2i)}&=\sin(pos/10000^{2i/d_{\text{model}}})\\ PE_{(pos,2i+1)}&=\cos(pos/10000^{2i/d_{\text{model}}}) \end{cases}$
其中， $p o s$ 表示原本词向量在词序列中的位置；而 $i$ 则表示， $p o s$ 这个位置被映射成一个 $d_\text{model}$ 维的向量，它的第 $i$ 维的值符合这个表达式

而这样选择的原因在于，给定偏移 $k$ ，以及初始的位置向量 $PE_{pos}$ ， $PE_{pos+k}$ 就能被 $PE_{pos}$ 线性表出；这一点由公式 $\sin(x+y)=\sin x\cos y+\cos x\sin y$ 就容易得到；也因此，除了由 $p o s$ 直接反映的绝对位置，各位置之间的相对关系也能够被较好的表出，从而能更好的反映不同距离的词之间的相对关系

Why Self Attention

目标： Encode，即：将 $(x_1,\dots,x_n)$ 这样的一列符号表示映射到 $(z_1,\dots,z_n)$

优化指标：

每一层计算的时间复杂度
能被并行的运算的数量：这可以用顺序操作的最小数量来衡量
长距离依赖关系在网络中呈现的路径长度。正如之前提到：学习一个长距离依赖关系对于这样顺序转换任务是一个挑战，在网络中，两个向量的之间路径长度越长，他们之间的依赖关系就越难以被学习到；换句话说，两个本来相距较远的向量如果我们能让他们在网络中的路径距离减小，那么我们就能更好的学习到他们之间的关系。因此我们可以采用任意两个输入、输出在网络中路径长度的最大值作为衡量指标。

分析：

Layer Type	Complexity per Layer	Sequential Operations	Maximum Path Length
Self-Attention	$O(n^2\cdot d)$	$O (1)$	$O (1)$
Recurrent	$O(n\cdot d^2)$	$O (n)$	$O (n)$
Convolutional	$O(k\cdot n \cdot d^2)$	$O (1)$	$O(\log_k(n))$
Self-Attention(restricted)	$O(r\cdot n\cdot d)$	$O (1)$	$O (n / r)$

对于CNN而言：

设kernel的宽度为 $k$ ，利用空洞卷积和分离卷积可以做到表中的复杂度
上述卷积方法我也不是很会，还需要后续学习，暂时作为事实放在这里

对于Self-Attention而言：

每一层暴力两两向量比较，每一次比较复杂度 $O (d)$ ，因此每一层复杂度 $O(n^2\cdot d)$ ，由于向量是两两直接比较，相应于在网络中就是直接连接，长度 $O (1)$
考虑到，通常情况下序列长度 $n$ 小于维度 $d$ ，因此Self Attention比RNN更快
对于 $n$ 较大的长序列，我们可以限制每一个单词的Attention对象仅为它的 $r$ 个邻居，从而降低单层复杂度到 $O(r\cdot n\cdot d)$
由于整个问题可以理解为对原向量进行了分块，因此复杂度为 $O (n / r)$