注意力机制的两种常用形式-----加性注意力（Additive Attention）和点积注意力（Dot-product Attention）

six.学长

于 2024-06-28 10:04:52 发布

阅读量689

点赞数 27

分类专栏：深度学习 Transformer 文章标签：深度学习

本文链接：https://blog.csdn.net/m0_51200050/article/details/140034769

版权

63 篇文章 0 订阅

订阅专栏

15 篇文章 0 订阅

订阅专栏

注意力机制是现代自然语言处理模型（如Transformer）的核心组件。最常用的两种注意力机制是加性注意力（Additive Attention）和点积注意力（Dot-product Attention）。下面详细解释并举例说明这两种注意力机制的工作原理和区别。

加性注意力通过一个前馈神经网络（feed-forward network）计算查询（query）和键（key）之间的相似度，具体步骤如下：

输入：查询 $Q$ 和键 $K$ 。
计算相似度：通过一个前馈神经网络计算相似度：
$e_{ij} = \text{v}^\top \tanh(\text{W}_q Q_i + \text{W}_k K_j)$
其中， $\text{W}_q$ 和 $\text{W}_k$ 是可学习的权重矩阵， $\text{v}$ 是一个可学习的向量。
计算注意力权重：将相似度通过softmax函数进行归一化：
$\alpha_{ij} = \frac{\exp(e_{ij})}{\sum_{k} \exp(e_{ik})}$
加权求和：利用注意力权重对值（value） $V$ 进行加权求和，得到输出：
$\text{Attention}(Q, K, V) = \sum_{j} \alpha_{ij} V_j$

点积注意力通过计算查询 $Q$ 和键 $K$ 的点积来衡量相似度，并加上一个缩放因子，具体步骤如下：

输入：查询 $Q$ 和键 $K$ 。
计算相似度：通过计算点积并除以缩放因子 $\sqrt{d_k}$ ：
$e_{ij} = \frac{Q_i \cdot K_j^\top}{\sqrt{d_k}}$
其中， $d_k$ 是键的维度。
计算注意力权重：将相似度通过softmax函数进行归一化：
$\alpha_{ij} = \frac{\exp(e_{ij})}{\sum_{k} \exp(e_{ik})}$
加权求和：利用注意力权重对值 $V$ 进行加权求和，得到输出：
$\text{Attention}(Q, K, V) = \sum_{j} \alpha_{ij} V_j$

假设我们有如下数据：

计算相似度：

先计算前馈神经网络的输出，假设 $\text{W}_q = \text{W}_k = \text{I}$ （单位矩阵）， $\text{v}^\top = \begin{bmatrix} 1 & 1 \end{bmatrix}$ ：

对于 $Q_1 = \begin{bmatrix} 1 & 0 \end{bmatrix}$ 和 $K_1 = \begin{bmatrix} 1 & 2 \end{bmatrix}$ ：
$e_{11} = \begin{bmatrix} 1 & 1 \end{bmatrix} \cdot \tanh\left(\begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} \begin{bmatrix} 1 \\ 0 \end{bmatrix} + \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} \begin{bmatrix} 1 \\ 2 \end{bmatrix}\right) = 1$

对于 $Q_1$ 和 $K_2 = \begin{bmatrix} 3 & 4 \end{bmatrix}$ ：
$e_{12} = \begin{bmatrix} 1 & 1 \end{bmatrix} \cdot \tanh\left(\begin{bmatrix} 4 \\ 4 \end{bmatrix}\right) \approx 0.999$

类似地，计算其他相似度 $e_{21}$ 和 $e_{22}$ 。
计算注意力权重：

例如对于 $Q_1$ ：
$\alpha_{11} = \frac{\exp(1)}{\exp(1) + \exp(0.999)} \approx 0.5001$
$\alpha_{12} = \frac{\exp(0.999)}{\exp(1) + \exp(0.999)} \approx 0.4999$
加权求和：

对于 $Q_1$ ：
$\text{Attention}(Q_1, K, V) = 0.5001 \begin{bmatrix} 5 & 6 \end{bmatrix} + 0.4999 \begin{bmatrix} 7 & 8 \end{bmatrix} \approx \begin{bmatrix} 6 & 7 \end{bmatrix}$

计算相似度：

直接计算点积并除以缩放因子 $\sqrt{d_k}$ （假设 $d_k = 2$ ）：

对于 $Q_1$ 和 $K_1$ ：
$e_{11} = \frac{1 \cdot 1 + 0 \cdot 2}{\sqrt{2}} = \frac{1}{\sqrt{2}}$

对于 $Q_1$ 和 $K_2$ ：
$e_{12} = \frac{1 \cdot 3 + 0 \cdot 4}{\sqrt{2}} = \frac{3}{\sqrt{2}}$

类似地，计算其他相似度 $e_{21}$ 和 $e_{22}$ 。
计算注意力权重：

例如对于 $Q_1$ ：
$\alpha_{11} = \frac{\exp(\frac{1}{\sqrt{2}})}{\exp(\frac{1}{\sqrt{2}}) + \exp(\frac{3}{\sqrt{2}})} \approx 0.1192$
$\alpha_{12} = \frac{\exp(\frac{3}{\sqrt{2}})}{\exp(\frac{1}{\sqrt{2}}) + \exp(\frac{3}{\sqrt{2}})} \approx 0.8808$
加权求和：

对于 $Q_1$ ：
$\text{Attention}(Q_1, K, V) = 0.1192 \begin{bmatrix} 5 & 6 \end{bmatrix} + 0.8808 \begin{bmatrix} 7 & 8 \end{bmatrix} \approx \begin{bmatrix} 6.7624 & 7.7624 \end{bmatrix}$

加性注意力和点积注意力在理论复杂度上相似，但点积注意力更快且更节省空间，因为它可以利用高度优化的矩阵乘法代码。通过具体数据示例，我们可以看到这两种注意力机制的工作原理和实际计算过程。

关注

专栏目录