李宏毅机器学习学习笔记——自注意力机制

最新推荐文章于 2024-01-11 21:16:08 发布

萍凡行者

最新推荐文章于 2024-01-11 21:16:08 发布

阅读量1k

点赞数 1

分类专栏：学习笔记文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/p_memory/article/details/116271274

版权

学习笔记专栏收录该内容

8 篇文章 0 订阅

订阅专栏

self-attention

应用场景
为什么要使用Self-attention?
Self-attention计算过程
Positional Encoding
Self-attention的变体
- Multi-head Self-attention
- Truncated Self-attention
Self-attention与其他神经网络的比较
Self-attention的其他应用
- 图像（image）处理
- 图（graph）结构数据处理

应用场景

self-attention也是一个常见的neural network框架，用来解决输入是一组向量并且向量的个数是不确定的问题。例如：

文本处理
语音识别
Drug discovery

self-attention的输出有以下3种情况：

每个向量都有一个标签，即输出跟输入数目一样。具体应用：词性标注、推荐系统。
整个sequence只输出一个标签。具体应用：语义分析、说话人识别、图片（分子结构图）识别。
输出的标签个数不确定。具体应用：机器翻译。

为什么要使用Self-attention?

对于输出与输入数目相同的情况，这种问题也称作Sequence Labeling问题。例如对句子I saw a saw中的单词进行词性标注，在这句话中，第一个saw是动词，第二个saw是名词。如果使用全连接网络来处理，有两种方法：

逐个向量处理。这种方法的缺陷是，它无法利用序列的上下文信息，全连接网络对于任意位置saw的词性预测结果必然是一样的。
考虑上下文信息，即在对saw进行词性标注时，设置一个window同时将前面几个单词和后面几个单词考虑进来。但是由于句子长度的不确定性，window设置过小，则不能将长句子中的所有单词考虑进来；window设置过大，又会使得网络参数太多，导致过拟合。

为了将整个句子的信息考虑进来，就要用到self-attention技术。self-attention网络结构：

self-attention对于每个向量都会考虑整个sequence的信息后输出一个向量。

Self-attention计算过程

计算两个向量相关性的方法：

点乘运算（dot product）。最常用的方法。输入向量分别乘上两个不同的矩阵 $W_{q}$ 和 $W_{k}$ 得到向量 $q$ 和 $k$ ，再把 $q$ 和 $k$ 做点乘。 $a_{i}$ 和 $a_{j}$ 的相关度 $\alpha_{i,j} = (a_{i}W_{q}) . (a_{j}W_{k})$ 。
加性运算（additive）。不对 $q$ 和 $k$ 做点乘，而是串联起来后使用 $t a n h$ 函数激活。 $a_{i}$ 和 $a_{j}$ 的相关度 $\alpha_{i,j} = tanh((a_{i}W_{q}) + (a_{j}W_{k}))$ 。

在self-attention中，计算attention的步骤：
attention计算步骤

计算 $q u e r y$ ，即当前向量与 $W_{q}$ 的乘积。计算方法： $q_{i} = W_{q}a_{i}$ 。
计算 $k e y$ ，即其他向量与 $W_{k}$ 的乘积。计算方法： $k_{j} = W_{k}a_{j}, k\in[1, n]$ 。
计算attetion score ( $\alpha$ )，即当前向量与其他向量的相关性。计算方法： $\alpha_{i, j} = q_{i}.k_{j}$ 。通常情况下，也需要计算向量和自己的相关性 。
分数正则化（normalization）。使用softmax函数激活 $\alpha$ 得到 $\alpha'$ （也可以使用其他激活函数）。$\alpha’{i, j} = softmax(\alpha{i, j})。
计算 $v a l u e$ 。根据 $\alpha'$ 抽取sequence中重要信息。计算方法： $v_{j} = W_{v}a_{j}$
计算输出向量 $b_{i}$ 。计算方法： $b_{i} =\sum_{j=1}^n\alpha'_{i, j}.v_{j}$ 。

self-attention中输出向量是同时计算出来的，不需要按序计算。
以上步骤使用矩阵操作的方式可以简单描述为：

根据输入向量I计算 Q、K、V。
计算分数及正则化。
计算输出向量O。

在这里插入图片描述
从这个计算过程可以看出，self-attention需要训练的参数只有 $W_{q}、W_{k}和W_{v}$ 。

Positional Encoding

到目前为止，self-attention中没有位置信息，它不知道每个向量在sequence中的位置是什么，也不知道两个向量间的距离是多少，但是位置信息有时候也是比较重要的。例如，在词性标注问题中，也许动词在句首出现的可能性比较低。
因此，当你认为你处理的问题中，位置信息比较重要，就需要用到positional encoding技术，也就是为每一个输入向量 $a_i$ 加上一个代表位置的向量 $e_i$ ，告诉self-attention位置的信息。
位置变量的设计：