注意力机制中的缩放问题及其解决方法

six.学长

于 2024-06-28 10:18:23 发布

阅读量865

点赞数 10

分类专栏： Transformer 深度学习文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/m0_51200050/article/details/140035178

版权

62 篇文章 0 订阅

订阅专栏

15 篇文章 0 订阅

订阅专栏

在讨论加性注意力（Additive Attention）和点积注意力（Dot-product Attention）时，研究表明，对于较小的 $d_k$ 值，两种机制的性能相近。然而，当 $d_k$ 值较大时，加性注意力在没有缩放的情况下表现优于点积注意力。下面详细解释这一现象及其解决方法。

加性注意力：通过前馈神经网络计算相似度。
$e_{ij} = \text{v}^\top \tanh(\text{W}_q Q_i + \text{W}_k K_j)$
点积注意力：通过查询和键的点积计算相似度。
$e_{ij} = Q_i \cdot K_j^\top$

对于较大的 $d_k$ 值，点积注意力的点积结果会变得非常大，这会导致softmax函数进入梯度极小的区域，使得梯度消失问题变得严重，从而影响训练效果。

为了解决上述问题，点积注意力引入了缩放因子 $\frac{1}{\sqrt{d_k}}$ ，使得点积结果在softmax之前缩小，从而避免梯度消失问题。

缩放后的点积注意力计算相似度的方法如下：
$e_{ij} = \frac{Q_i \cdot K_j^\top}{\sqrt{d_k}}$

在不进行缩放时，点积结果 $Q_i \cdot K_j^\top$ 的期望值和方差随着 $d_k$ 的增大而增大，导致softmax函数的输入值范围扩大。

假设 $Q$ 和 $K$ 中的元素服从标准正态分布 $\mathcal{N}(0, 1)$ ，则：
$\mathbb{E}[Q_i \cdot K_j^\top] = 0$
$\text{Var}(Q_i \cdot K_j^\top) = d_k$

当 $d_k$ 增大时， $Q_i \cdot K_j^\top$ 的值变得很大，使得softmax函数的输入值变得极大或极小，导致梯度消失。

通过引入缩放因子 $\frac{1}{\sqrt{d_k}}$ ，我们将方差缩小为1，从而使得softmax函数的输入值在一个合理范围内，避免梯度消失。

假设我们有以下数据：

假设 $d_k = 2$ ，计算未缩放和缩放的点积注意力。

计算相似度：

对于 $Q_1$ 和 $K_1$ ：
$e_{11} = 1 \cdot 1 + 0 \cdot 2 = 1$

对于 $Q_1$ 和 $K_2$ ：
$e_{12} = 1 \cdot 3 + 0 \cdot 4 = 3$
计算注意力权重：

$\alpha_{11} = \frac{\exp(1)}{\exp(1) + \exp(3)} \approx 0.1192$
$\alpha_{12} = \frac{\exp(3)}{\exp(1) + \exp(3)} \approx 0.8808$
加权求和：

$\text{Attention}(Q_1, K, V) = 0.1192 \begin{bmatrix} 5 & 6 \end{bmatrix} + 0.8808 \begin{bmatrix} 7 & 8 \end{bmatrix} \approx \begin{bmatrix} 6.7624 & 7.7624 \end{bmatrix}$

计算相似度：

对于 $Q_1$ 和 $K_1$ ：
$e_{11} = \frac{1}{\sqrt{2}}$

对于 $Q_1$ 和 $K_2$ ：
$e_{12} = \frac{3}{\sqrt{2}}$
计算注意力权重：

$\alpha_{11} = \frac{\exp(\frac{1}{\sqrt{2}})}{\exp(\frac{1}{\sqrt{2}}) + \exp(\frac{3}{\sqrt{2}})} \approx 0.1192$
$\alpha_{12} = \frac{\exp(\frac{3}{\sqrt{2}})}{\exp(\frac{1}{\sqrt{2}}) + \exp(\frac{3}{\sqrt{2}})} \approx 0.8808$
加权求和：

$\text{Attention}(Q_1, K, V) = 0.1192 \begin{bmatrix} 5 & 6 \end{bmatrix} + 0.8808 \begin{bmatrix} 7 & 8 \end{bmatrix} \approx \begin{bmatrix} 6.7624 & 7.7624 \end{bmatrix}$