注意力机制的理解

江湖夜雨abc

已于 2023-02-27 14:58:12 修改

阅读量151

点赞数

文章标签：机器学习人工智能深度学习

于 2023-02-27 12:18:25 首次发布

本文链接：https://blog.csdn.net/ahhxxttxs/article/details/129239379

版权

Attention

一个简单的例子进行理解

对于给定的数据集 ${(x_1,y_1),...,(x_n,y_n)}$ ，如何学习预测函数 $y = f (x)$ ，使得对于一个输入 $x$ 可以获得预测值 $\hat{y}$ ？

一个简单的方法就是对所有 $y_i$ 值进行平均加权，用均值作为最后的预测值。

基于注意力的方法就是对于样本中的 $y_i$ 赋予不同的权重。如果输入 $x$ 和样本中的某个 $x_i$ 更接近，那么相应的 $y_i$ 会被分配更高的权重，这样相应的预测也会较为准确。于是 $f (x)$ 可设计如下:
$f(x)=\sum_{i=1}^{n}\frac{K(x-x_i)}{\sum_{j=1}^{n}K(x-x_j)}y_i$
其中 $K$ 是一种核函数。

如果 $K$ 是高斯核函数，那么:
$f(x)=\sum_{i=1}^{n}softmax(-\frac{1}{2}(x-x_i)^2)y_i$
$f (x)$ 还可以写成一种更通用的形式: $f(x)=\sum_{i=1}^{n}\alpha(x,x_i)y_i$ .

注意力机制的计算可以分为两步，一是计算对于一个输入的注意力分布，如对 $\alpha(x,x_i)$ 的计算，二是计算对与输入的加权平均，如对 $f (x)$ 的计算。

带参数的注意力汇聚

将可学习的参数 $w$ 加入到 $f (x)$ 中，即: $f(x)=\sum_{i=1}^{n}softmax(-\frac{1}{2}(w(x-x_i))^2)y_i$ .

换个方式描述

将上述几个公式总结一下:
$\begin{aligned} f(x) & =\sum_{i=1}^{n} \alpha\left(x, x_{i}\right) y_{i} \\ & =\sum_{i=1}^{n} \frac{\exp \left(-\frac{1}{2}\left(\left(x-x_{i}\right) w\right)^{2}\right)}{\sum_{j=1}^{n} \exp \left(-\frac{1}{2}\left(\left(x-x_{j}\right) w\right)^{2}\right)} y_{i} \\ & =\sum_{i=1}^{n} \operatorname{softmax}\left(-\frac{1}{2}\left(\left(x-x_{i}\right) w\right)^{2}\right) y_{i} . \end{aligned}$
$x$ 称为查询， ${(x_1,y_1),...,(x_n,y_n)}$ 是一系列键值对。
对于第二行的公式，我们将 $s(x)=-\frac{1}{2}((x-x_i)w)^2$ 称为评价函数。
将上述符号全部向量化，查询为 $\boldsymbol{q}$ ，键值对为 $\boldsymbol{(k_1,v_1),...,(k_n,v_n)}$ ，于是有:
$f\left(\mathbf{q},\left(\mathbf{k}_{1}, \mathbf{v}_{1}\right), \ldots,\left(\mathbf{k}_{m}, \mathbf{v}_{m}\right)\right)=\sum_{i=1}^{m} \alpha\left(\mathbf{q}, \mathbf{k}_{i}\right) \mathbf{v}_{i}$
$\alpha\left(\mathbf{q}, \mathbf{k}_{i}\right)=softmax\left(a\left(\mathbf{q}, \mathbf{k}_{i}\right)\right)=\frac{\exp \left(a\left(\mathbf{q}, \mathbf{k}_{i}\right)\right)}{\sum_{j=1}^{m} \exp \left(a\left(\mathbf{q}, \mathbf{k}_{j}\right)\right)}$

评价函数

不同的注意力评分函数会导致不同的注意力汇聚操作。常用的评分函数有以下几种:

加性函数: $s(\boldsymbol{k}, \boldsymbol{q})=\boldsymbol{w_1} \tanh (\boldsymbol{w_2} \boldsymbol{k}+\boldsymbol{w_3} \boldsymbol{q})$ ，其中 $\boldsymbol{w_1},\boldsymbol{w_2},\boldsymbol{w_3}$ 都是可学习的参数。
点积函数: $s(\boldsymbol{k}, \boldsymbol{q})=\boldsymbol{q}^\top \boldsymbol{k}$
缩放点积函数: $s(\boldsymbol{k}, \boldsymbol{q})=\frac{\boldsymbol{q}^\top \boldsymbol{k}}{\sqrt{D}}$ ， $D$ 是输入向量的维度。缩放点积函数是较为常用的。
双线性点积函数: $s(\boldsymbol{k}, \boldsymbol{q})=\boldsymbol{k}^\top \boldsymbol{W}\boldsymbol{q}$
一般来说，点积评分函数相较于加性评分函数计算效率更高，但当查询向量的维度较高时，点积评分函数会有较大的方差，导致softmax函数梯度较小。因此一般用缩放点积函数，保证点积的方差始终为1。

多头注意力机制

用 $(\boldsymbol{K}, \boldsymbol{V})=\left(\boldsymbol{k}_{1}, \boldsymbol{v}_{1}\right), \cdots,\left(\boldsymbol{k}_{n}, \boldsymbol{v}_{n}\right)$ 表示 $n$ 组键值对，多头注意力利用多个查询 $\boldsymbol{Q}=(\boldsymbol{q_1},...,\boldsymbol{q_m})$ 来并行地从输入信息中选取多组信息。每个注意力机制关注输入信息的不同部分。其关键特征在于并行。

自注意力机制

自注意力机制，顾名思义，关注自身的注意力分布。 $\boldsymbol{K},\boldsymbol{Q},\boldsymbol{V}$ 都是对同一个数据 $\boldsymbol{X}$ 进行线性变换（注意这里的 $\boldsymbol{X}$ 不是查询）。最后得到的结果，根据上述注意力机制，相当于假如从 $\boldsymbol{Q}$ 中提取出一个 $\boldsymbol{q_i}$ ，那么应该关注其它哪些 $\boldsymbol{q}$ 。比如对于一句话：”小花家的狗会做饭“，如果查询向量是”会“，那么进行自注意力运算后的结果应该是"做饭"，即在看到”会“的时候，就应该给”做饭“更多的注意力。

如果用缩放点积来作为注意力评价函数，对于一个查询向量 $\boldsymbol{q_n}$ ，可得单个输出序列:
$\boldsymbol{h_n}=att((\boldsymbol{K},\boldsymbol{V}),\boldsymbol{q_n})$