预训练语言模型（五）：Self-attention

Dream_Poem

已于 2022-02-08 15:53:10 修改

阅读量1.1k

点赞数

文章标签：语言模型自然语言处理深度学习

于 2022-02-07 14:47:44 首次发布

本文链接：https://blog.csdn.net/Dream_Poem/article/details/122769926

版权

Self-Attention

首先对注意力机制而言，很重要的两个概念是Query和Values，注意力只有相对于特定的Query才有意义，这样才能够通过Query从Values中筛选出重要信息。

对于注意力模型来讲，可以分为三个阶段：

1. 比较相似度

首先需要通过 $\alpha$ 找到几个向量之间的相似度，如下图所示，分别以 $a^1,a^2,a^3,a^4$ 作为query，根据其它的 $a^i$ 关键词key求出相关度 $\alpha$ :

关于这个 $\alpha$ 的计算，主要有以下几种方式：

使用点乘方法（最常用）： $f(Q,K_i)=Q^TK_i$
权重： $f(Q,K_i)=Q_TWK_i$
级联后权重： $f(Q,K_i)=W[Q^T;K_i]$
感知器： $f(Q,K_i)=V^T\tanh (WQ+UK_i)$

将其应用到self-attention中，求 $\alpha$ 的过程如下图所示

在这里 $q^1$ 相当于查询内容， $k^2,k^3,k^4$ 相当于关键词，这里做点乘之后计算出的 $\alpha$ 就是相似度。

2. 进行softmax操作

这里使用的公式是这样的：
$\alpha_i'=softmax(\frac{f(Q,K_i)}{\sqrt{d_k}})$

这里除以 $\sqrt{d_k}$ 的作用：假设 Q , K 里的元素的均值为0，方差为 1，那么 $A^T=Q^TK$ 中元素的均值为 0，方差为 d。当 d 变得很大时， A 中的元素的方差也会变得很大，如果 A 中的元素方差很大(分布的方差大，分布集中在绝对值大的区域)，在数量级较大时， softmax 将几乎全部的概率分布都分配给了最大值对应的标签，由于某一维度的数量级较大，进而会导致 softmax 未来求梯度时会消失【梯度消失为啥呢我没明白】。总结一下就是 softmax(A) 的分布会和d有关。因此 A 中每一个元素乘上 $\frac{1}{\sqrt{d_k}}$ 后，方差又变为 1，并且 A 的数量级也将会变小。

小补充：这里在运算的时候，全部是使用的矩阵运算，即 $Q=q^1q^2q^3q^4$ ，这样就可以实现矩阵的并行运算，使用GPU大大提高运算效率。

3. 对V（Values）进行加权求和

得到Attention向量： $Attention=\sum_{i=1}^m \alpha_i'V_i$

关于注意力矩阵怎么来的

（李宏毅老师讲解很细致，这里放两张很清晰的图好了）

Multi-head Self-Attention

多头注意力机制在transformer中应用很多，以双头注意力机制为例：

双头注意力机制即将每个 $q^i$ 分为两个，分别为 $q^{i,1}$ 和 $q^{i,2}$ ，再分别对所有上标为1的进行计算得到 $b^{i,1}$ ，对所有上标为2的进行计算得到 $b^{i,2}$ 。
之后对两个矩阵级联再与权重矩阵相乘，得到 $b^i$

多头注意力机制的好处在于把原始信息放入了多个子空间中，保证attention可以注意到不同子空间的信息，捕捉到更加丰富的特征信息。

Position Encoding

self-attention对于语言模型最大的缺陷在于它没有编码位置信息，即便将输入的词汇序列改变，注意力机制仍然会在对应位置上赋予其相应的权重，所以self-attention是与位置没有关系的，此时就需要添加一些位置信息，添加方法也很简单，就是用简单的相加就可以：
$X_{final\_embedding}=Embedding+Positional Embedding$
位置编码的公式如下：
$PE_{pos,2i}=\sin (pos/10000^{2i/d_{model}})\\ PE_{pos,2i+1}=\cos (pos/10000^{2i/d_{model}})$
上面这组公式中， $p o s$ 表示位置， $i$ 表示维度， $d_{model}$ 表示位置向量的向量维度， $2 i$ 、 $2 i + 1$ 表示的奇偶维度，偶数位置用 $s i n$ ，奇数位置用 $c o s$ 函数。
由上面这个公式可以看到， $P E$ 是一个绝对位置的编码，但事实上，它其中也蕴含了相对编码，下面进行说明：
首先我们知道三角函数的性质有：
$\sin (\alpha+\beta)=\sin \alpha\cos\beta+\cos\alpha\sin\beta\\ \cos (\alpha+\beta)=\cos \alpha\cos\beta-\sin\alpha\sin\beta$
假设相对位置为 $k$ ，那么位置编码的公式可以写成：
$PE(pos+k,2i)=PE(pos,2i)\times PE(k,2i+1)+PE(pos,2i+1)\times PE(k.2i)\\ PE(pos+k,2i+1)=PE(pos,2i+1)\times PE(k,2i+1)-PE(pos,2i)\times PE(k.2i)$
这样对于pos+k位置的位置向量某一维 $2 i$ 或 $2 i + 1$ 而言，可以表示为pos位置与k位置的位置向量的 $2 i$ 与 $2 i + 1$ 维的线性组合，这样的线性组合意味着位置向量中蕴含了相对位置信息。
某个单词的位置信息是其它单词位置信息的线性组合，这种线性组合就意味着位置向量中蕴含了相对位置信息。