注意力机制

W11H08Z

于 2024-05-06 21:08:38 发布

阅读量935

点赞数 15

分类专栏：动手学深度学习笔记文章标签：机器学习

本文链接：https://blog.csdn.net/W11H08Z/article/details/138508262

版权

动手学深度学习笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

注意力机制

本文是笔者《动手学深度学习》的学习笔记，如有谬误，请随时指出。

查询、键和值

人类的注意力方式可以分为两种：自主性的注意力和非自主性的注意力。

非自主性的注意力：无意识间注意到的，比如说一群白色的物品之间有一个黑色的物品，这会使你无意识的注意到黑色物品。
自主性的注意力：有意识的去注意的，比如说在一面挂满相片的墙上，想要找到你自己的照片，此时你脑子里有一个查询，于是依次去比对墙上的照片，直到找到跟你脑子里的自己最像的照片。

而我们在这里讨论的注意力机制，是对自主性注意力的建模。基本上服从以下几个步骤：

出现一个查询
将查询和已经存在的键比对
找到最感兴趣的那个键（对于感兴趣的定义有很多），输出他的值

在这里插入图片描述

Nadaraya-Watson 核回归

首先我们考虑一个回归问题，给定一组数据 ${(x_i, y_i)\}_{i=1}^n$ ，其中
$y_i = 2\sin (x_i)+x_i^{0.8}+\epsilon$
其中 $\epsilon\sim\mathcal{N}(0, 0.5)$ ， $n = 50$ 。我们需要根据这些数据预测任意新输入 $x$ 的输出 $\hat{y}=f(x)$ 。

平均汇聚

我们使用最简单的估计其来解决
$\frac{1}{n}\sum_{i=1}^n y_i$
此时估计效果很差
在这里插入图片描述

或许你此时会认为，这当然很差，这么做的意义是什么？让我们用注意力机制的角度来看这个问题，把数据集 ${(x_i, y_i)\}_{i=1}^n$ 看成注意力机制中的若干个键值对， $f (x)$ 的输入值就代表一个查询，此时预测流程可以看作：

给定一个查询 $x$
将查询和已经存在的键 $x_i$ 比对
找到最感兴趣的那个键（此时我们对所有的键都不感兴趣，或者说对所有键感兴趣的程度都一样），因此我们就给每一个键 $x_i$ 的值 $y_i$ 赋予了一个 $1/ n$ 的权重，然后累加起来，就有了上述的结果

非参数注意力汇聚

显然之前的平均汇聚不好的原因是，它并没有有效的将键和值进行比对，简单的认为所有的键都一样，这显然不对，因此我们可以采用如下方法：
$\sum_{i=1}^n \frac{K(x-x_i)}{\sum_{j=1}^n K(x-x_j)}y_i$
其中 $K$ 是核函数，当我们取 $K$ 为高斯核函数
$\frac{1}{\sqrt{2\pi}}\exp (-\frac{u^2}{2})$
此时有
$\sum_{i=1}^n\frac{\exp(\frac{1}{2}(x-x_i)^2)}{\sum_{j=1}^n\exp(-\frac{1}{2}(x-x_j)^2)}y_i = \sum_{i=1}^n\text{softmax}(-\frac{1}{2}(x-x_i)^2)y_i$
这个式子的意思是：当一个键 $x_i$ 距离查询 $x$ 越近，那么对于的值 $y_i$ 的权重就越大，显然这样设定更加合理，此时最后的结果为
在这里插入图片描述

可以看出结果好了一些，但是误差依然较大，这大概是由于数据量不够导致的（这种方法又称非参数的Nadaraya‐Watson核回归，具有一致性（consistency）：如果有足够的数据，此模型会收敛到最优结果）

受此启发，我们可以抽象出一个更通用的注意力汇聚的公式
$\sum_{i=1}^n \alpha(x, x_i)y_i$
其中 $\alpha(x, x_i)$ 称为注意力权重，根据具体情况自定义。但需要保证注意力权重是一个有效的概率分布：值非负，总和为1。

带参数的注意力汇聚

尽管非参数的Nadaraya‐Watson核回归具有一致性，但是如之前所见，数据不够时，误差依然较大，因此我们可以引入可学习参数 $w$
$\sum_{i=1}^n \text{softmax}\left(-\frac{1}{2}((x-x_i)w)^2\right)y_i$
设置目标函数为均方误差损失函数，将其最小化后结果为
在这里插入图片描述

可以看出虽然更加贴近原始曲线，但是有些过拟合了

注意力评分函数

回顾之前的注意力汇聚公式
$\sum_{i=1}^n \alpha(x, x_i)y_i$
其中 $\alpha(x, x_i)$ 应该需要可以很好描述查询 $x$ 和键 $x_i$ 之间的相似程度，但是需要注意的是，他还需要是一个有效的概率分布，若干数值转化为概率分布的一个常用的方法是 $\text{softmax}$ 函数，因此，注意力汇聚函数 $f$ 常常写成这样
$f(\mathbf{q},(\mathbf{k}_1, \mathbf{v}_1), \ldots, (\mathbf{k}_m,\mathbf{v}_m)) = \sum_{i=1}^m\text{softmax}(a(\mathbf{q}, \mathbf{k}_i))\mathbf{v}_i$
实际上用来衡量查询 $x$ 和键 $x_i$ 之间的相似程度是注意力评分函数 $a(\mathbf{q}, \mathbf{k})$ 。

加性注意力

一般来说，当查询和键是不同长度的矢量时，可以使用加性注意力作为评分函数。给定查询 $\mathbf{q}\in\mathbb{R}^q$ 和键 $\mathbf{k}\in\mathbb{R}^k$ ，加性注意力的评分函数为
$a(\mathbf{q}, \mathbf{k}) = \mathbf{w}_v^\top \tanh(\mathbf{W}_q\mathbf{q}+\mathbf{W}_k\mathbf{k})\in\mathbb{R}$
其中可学习参数为 $\mathbf{W}_q\in\mathbb{R}^{h\times q}, \mathbf{W}_k\in\mathbb{R}^{h\times k}$ 和 $\mathbf{w}_v\in\mathbb{R}^h$

缩放点积注意力

使用点积可以得到计算效率更高的评分函数，但是点积操作要求查询和键具有相同的长度 $d$ 。缩放点积注意力的评分函数为：
$a(\mathbf{q}, \mathbf{k}) = \frac{\mathbf{q}^\top \mathbf{k}}{\sqrt{d}}$
其中除以 $\sqrt{d}$ 是为了消除点积的大小与向量长度的相关性，同时点积也能够衡量两个向量的相似程度，由于在欧式空间下，两个向量的内积相当于两个向量的夹角余弦值乘以两个常数，夹角越小可以认为两个向量越相似，因此我们可以用点积来衡量两个向量的相似程度。

刚刚突然脑子一抽，不知道为什么
$\mathbf{u}^\top \mathbf{v} = \|\mathbf{u}\|\|\mathbf{v}\|\cos(\theta)$
简单的证明了一下
$\begin{aligned} \|\mathbf{u}-\mathbf{v}\|^2 &= \|\mathbf{u}\|^2+\|\mathbf{v}\|^2-2\|\mathbf{u}\|\|\mathbf{v}\|\cos(\theta)\\ (\mathbf{u}-\mathbf{v})^\top(\mathbf{u}-\mathbf{v}) &= \|\mathbf{u}\|^2+\|\mathbf{v}\|^2-2\|\mathbf{u}\|\|\mathbf{v}\|\cos(\theta)\\ -2\mathbf{u}^\top\mathbf{v} &= -2\|\mathbf{u}\|\|\mathbf{v}\|\cos(\theta)\\ \mathbf{u}^\top \mathbf{v} &= \|\mathbf{u}\|\|\mathbf{v}\|\cos(\theta) \end{aligned}$

Bahdanau 注意力

这里描述的Bahdanau注意力模型，和之前提到的seq2seq模型结构相同，只不过上下文变量 $\mathbf{c}$ 在解码时间步 $t^{'}$ 会被 $c_{t'}$ 替换：
$\mathbf{c}_{t'} = \sum_{t=1}^T\alpha(\mathbf{s}_{t'-1},\mathbf{h}_t)\mathbf{h}_t$
其中，时间步 $t^{'} - 1$ 时的解码器隐状态 $\mathbf{s}_{t'-1}$ 时查询，编码器的隐状态 $\mathbf{h}_t$ 既是键也是值。

在这里插入图片描述

多头注意力

在实践中，当给定相同的查询、键和值的集合时，我们希望模型可以基于相同的注意力机制学习到不同的行
为，然后将不同的行为作为知识组合起来，捕获序列内各种范围的依赖关系（例如，短距离依赖和长距离依
赖关系）。

因此我们可以将查询、键和值用多个可学习的线性变换映射到不同的空间中，以获得不同的注意力 $\mathbf{h}_i$ ，每个注意力头 $\mathbf{h}_i$ 计算方法为
$\mathbf{h}_i = f(\mathbf{W}_i^{(q)}\mathbf{q}, (\mathbf{W}_i^{(k)}\mathbf{k}_1,\mathbf{W}_i^{(v)}\mathbf{v}_1), \ldots, (\mathbf{W}_i^{(k)}\mathbf{k}_m,\mathbf{W}_i^{(v)}\mathbf{v}_m))$
最后将 $h$ 个注意力头连结，然后进行一个线性变换
$\text{Output} = \mathbf{W}_o\begin{bmatrix}\mathbf{h}_1\\ \vdots \\ \mathbf{h}_h\end{bmatrix}$
在这里插入图片描述

自注意力和位置编码

自注意力

很简单，就是说查询，键和值都是它自己。给定一个输入序列 $\mathbf{x}_1, \ldots, \mathbf{x}_n$ ，其中 $\mathbf{y}_i$ 代表 $\mathbf{x}_i$ 对应的自注意力的输出
$\mathbf{y}_i=f(\mathbf{x}_i, (\mathbf{x}_1, \mathbf{x}_1),\ldots, (\mathbf{x}_n, \mathbf{x}_n))$

自注意力的时间复杂度为 $O(n^2 d)$ ，而卷积神经网络和循环神经网络的时间复杂度分别为 $O(knd^2), O(nd^2)$ ，可见自注意力遇到长序列时耗时很大，而CNN和RNN遇到维度高的序列时耗时很大。

位置编码

由于自注意力时并行计算的，因此丢失了数据的顺序信息，为此我们应该添加上顺序信息。假设输入 $\mathbf{X}\in\mathbb{R}^{n\times d}$ 代表一个序列中 $n$ 个词元的 $d$ 维嵌入表示。位置编码使用相同形状的位置嵌入矩阵 $\mathbf{P}\in\mathbb{R}^{n\times d}$ ，因此编码后的输入信息为
$\mathbf{X}+\mathbf{P}$

现在我们只需要考虑编码方式即可。我们先不加解释的直接给出结果，矩阵第 $i$ 行、第 $2 j$ 列和第 $2 j + 1$ 列上的元素为：
$p_{i, 2j}=\sin\left(\frac{i}{10000^{2j/d}}\right)$
$p_{i, 2j+1}=\cos\left(\frac{i}{10000^{2j/d}}\right)$

在这里插入图片描述

可以看出第6列和第7列之前只是相当于加了一个平移（ $\sin$ 和 $\cos$ 的区别），而第 $8$ 列和第 $6$ 列相比，周期变得更长了。

我认为位置编码设计成这样的原因有两个：

模仿二进制编码的形式，回想一下二进制同步计数器的方波（数电内容），个人认为平滑之后就是正弦波
能够通过线性变换将一个位置的位置编码，投影到另一个位置上，使得模型能够学习得到这样的信息

绝对位置信息

考虑使用最原始的二进制编码来记录位置信息，如果单个数据的维度为 $d$ ，那么最长能统计的序列长度为 $2^d$ ，比如第7条的数据的位置编码为111，将其加在原数据上即可。

在二进制表示中，较高比特位的交替频率低于较低比特位，与下面的热图所示相似，只是位置编码通过使用
三角函数在编码维度上降低频率。由于输出是浮点数，因此此类连续表示比二进制表示法更节省空间。

在这里插入图片描述

相对位置信息

对于任何确定的位置偏移 $\delta$ ，位置 $i+\delta$ 处的位置编码可以用线性投影位置 $i$ 处的位置编码来表示。令 $\omega_j=1/10000^{2j/d}$ ，对于确定的 $d e lt a$ ，任何一对 $p_{i, 2j}, p_{i, 2j+1})$ 都可以线性投影到 $(p_{i+\delta, 2j}, p_{i+\delta, 2j+1})$ ：
$\begin{align*} \begin{bmatrix} \cos(\delta\omega_j) & \sin(\delta\omega_j)\\ -\sin(\delta\omega_j) & \cos(\delta\omega_j) \end{bmatrix}\begin{bmatrix} p_{i, 2j}\\ p_{i, 2j+1} \end{bmatrix} = \begin{bmatrix} p_{i+\delta, 2j}\\ p_{i+\delta, 2j+1} \end{bmatrix} \end{align*}$