【动手深度学习-笔记】注意力机制（二）注意力评分函数

wonder-wall

已于 2022-10-16 15:44:25 修改

阅读量1.3k

点赞数

分类专栏：深度学习笔记文章标签：深度学习机器学习人工智能

于 2022-09-04 17:25:48 首次发布

本文链接：https://blog.csdn.net/qq_41129489/article/details/126691156

版权

深度学习笔记专栏收录该内容

8 篇文章 3 订阅

订阅专栏

紧接上回：【动手深度学习-笔记】注意力机制（一）注意力机制框架

注意力评分函数

回顾使用高斯核的Nadaraya-Watson 核回归：
$\begin{split}\begin{aligned} f(x) &=\sum_{i=1}^n \alpha(x, x_i) y_i\\ &= \sum_{i=1}^n \frac{\exp\left(-\frac{1}{2}(x - x_i)^2\right)}{\sum_{j=1}^n \exp\left(-\frac{1}{2}(x - x_j)^2\right)} y_i \\&= \sum_{i=1}^n \mathrm{softmax}\left(-\frac{1}{2}(x - x_i)^2\right) y_i. \end{aligned}\end{split}\tag{1}$
我们将高斯核指数部分 $-\frac{1}{2}(x - x_i)^2$ 视为注意力评分函数（attention scoring function），简称评分函数（scoring function），然后把这个函数的输出结果输入到softmax函数中进行运算。通过上述步骤，我们将得到与键对应的值的概率分布（即注意力权重）。最后，注意力汇聚的输出就是基于这些注意力权重的值的加权和。

至此，我们可以根据上述的步骤，将注意力机制框架进一步细化描述：
在这里插入图片描述
用严格的数学语言描述，对于一个查询 $\mathbf{q} \in \mathbb{R}^q$ 和m个键值对 $(\mathbf{k}_1, \mathbf{v}_1), \ldots, (\mathbf{k}_m, \mathbf{v}_m), \mathbf{k}_i \in \mathbb{R}^k,\mathbf{v}_i \in \mathbb{R}^v$ 。注意力汇聚函数 $f$ 可表示为：
$f(\mathbf{q}, (\mathbf{k}_1, \mathbf{v}_1), \ldots, (\mathbf{k}_m, \mathbf{v}_m)) = \sum_{i=1}^m \alpha(\mathbf{q}, \mathbf{k}_i) \mathbf{v}_i \in \mathbb{R}^v,$
其中 $\alpha(\mathbf{q}, \mathbf{k}_i)$ 为注意力权重, 是将 $\mathbf{q}, \mathbf{k}_i$ 通过注意力评分函数 $a$ 得到一个相似性度量（标量），再通过softmax运算得到的概率分布：
$\alpha(\mathbf{q}, \mathbf{k}_i) = \mathrm{softmax}(a(\mathbf{q}, \mathbf{k}_i)) = \frac{\exp(a(\mathbf{q}, \mathbf{k}_i))}{\sum_{j=1}^m \exp(a(\mathbf{q}, \mathbf{k}_j))} \in \mathbb{R}.$

选择不同的注意力评分函数 $a$ 会导致不同的注意力汇聚操作。流行的注意力评分函数有加性注意力（additive attention）评分和缩放点积注意力（scaled dot-product attention）评分

加性注意力

当查询 $\mathbf{q}$ 和键 $\mathbf{k}$ 的长度不同时，可以使用加性注意力评分函数：
$a(\mathbf q, \mathbf k) = \mathbf v^\top \text{tanh}(\mathbf W_q\mathbf q + \mathbf W_k \mathbf k) \in \mathbb{R}\tag{2}$
其中输入为查询 $\mathbf{q} \in \mathbb{R}^q$ 和键 $\mathbf{k} \in \mathbb{R}^k$ ；
分别和两个权重矩阵 $\mathbf W_q\in\mathbb R^{h\times q},\mathbf W_k\in\mathbb R^{h\times k}$ 相乘并相加，得到长为 $h$ 的列向量；
使用 $\tanh$ 作为激活函数，最后和值向量 $\mathbf v\in\mathbb R^{h}$ 的转置相乘，得到一个标量值。

相当于将查询和键连结起来后输入到一个单隐藏层感知机（MLP）中，其隐藏单元数 $h$ 是一个超参数

缩放点积注意力

查询和键具有相同的长度的情况下，我们可以使用缩放点积注意力评分来提高计算效率：
$a(\mathbf q, \mathbf k) = \mathbf{q}^\top \mathbf{k} /\sqrt{d}.$
实践中往往是以小批次进行计算，假设查询和键的长度 $d$ ，值的长度为 $v$ ，一个批次大小为 $n$ ，键的数量为 $m$ 则有：
$\mathrm{softmax}\left(\frac{\mathbf Q \mathbf K^\top }{\sqrt{d}}\right) \mathbf V \in \mathbb{R}^{n\times v}.$
其中 $\mathbf Q\in\mathbb R^{n\times d},\mathbf K\in\mathbb R^{m\times d},\mathbf V\in\mathbb R^{m\times v}$