Transformer在计算softmax之前为什么要除以维度的开方

正在输入中。

已于 2024-07-15 00:05:10 修改

阅读量448

点赞数 11

文章标签： transformer 深度学习机器学习

于 2024-07-14 23:55:03 首次发布

本文链接：https://blog.csdn.net/Zzzzyc_/article/details/140420229

版权

在计算注意力时，特别是在使用缩放点积注意力（Scaled Dot-Product Attention）时，确实会用到除以维度的平方根。本文详细这一步操作的意义和原因。

假设我们有查询向量 $Q$ 、键向量 $K$ 和值向量 $V$ ，它们的维度为 $d_k$ 。注意力计算的公式为：
$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{Q K^T}{\sqrt{d_k}}\right) V$
意义：

防止过大的点积导致梯度消失： 直接计算 $Q K^T$ 可能导致结果的范围过大，特别是当 $d_k$ 较大时，点积的值可能会迅速增大，从而使得 softmax 的输出趋向于极值，导致梯度消失。这种情况下，模型的学习会变得不稳定。
- Softmax的输出定义为： $\text{softmax}(z_i) = \frac{e^{z_i}}{\sum_j e^{z_j}}$ 当某个 $z_i$ 的值很大（例如，远大于其他 $z_j$ 的值），则 $\text{softmax}(z_i)$ 将接近于1，而其他 $\text{softmax}(z_j)$ （ $\neq i$ ）将接近于0。Softmax的梯度计算涉及到输出的概率分布。对于某个特定的输出 $i$ ，其梯度公式为： $\frac{\partial \text{softmax}(z_i)}{\partial z_k} = \text{softmax}(z_i) \left( \delta_{ik} - \text{softmax}(z_k) \right)$ 其中 $\delta_{ik}$ 是Kronecker delta。
- 当 $z_i$ 很大时， $\text{softmax}(z_i)$ 接近1，而 $\text{softmax}(z_k)$ （ $\neq i$ ）接近0，因此梯度大约为： $\frac{\partial \text{softmax}(z_i)}{\partial z_k} \approx 1 \cdot (1 - 1) = 0 \quad \text{(when $ k = i $)}$ $\frac{\partial \text{softmax}(z_k)}{\partial z_k} \approx 1 \cdot (0 - 0) = 0 \quad \text{(when $ k \neq i $)}$
- 当 $z_i$ 很小时， $\text{softmax}(z_i)$ 接近0，因此梯度大约为： $\frac{\partial \text{softmax}(z_i)}{\partial z_k} \approx 0 \cdot (1 - 0/1) = 0 \quad \text{(when $ k = i $)}$ $\frac{\partial \text{softmax}(z_k)}{\partial z_k} \approx 0 \cdot (0 - 0/1) = 0 \quad \text{(when $ k \neq i $)}$ 由此可见，当softmax输出集中在某一项时，导数的计算会导致梯度几乎为0，这被称为梯度消失。这样的情况会使得反向传播过程中对相应参数的更新变得非常小，从而导致学习过程缓慢或停滞。
  因此，当 softmax 输出极端化时，导致的梯度变小，会使得模型在训练过程中难以有效地学习和更新权重，影响整体性能。

平衡各个元素的影响： 除以 $\sqrt{d_k}$ 有助于标准化点积的结果，使得不同维度的输入对最终输出的影响保持一致，从而提高模型的训练效果。
确保softmax的有效性： 如果 $d_k$ 较大，点积 $Q K^T$ 的结果可能会非常大。假设 $Q K^T$ 的值是一个较大的数 $z$ ，则 softmax 的计算为： $\text{softmax}(z_i) = \frac{e^{z_i}}{\sum_j e^{z_j}}$ 当 $z_i$ 的值很大时，指数函数 $e^{z_i}$ 将迅速增大，而其他较小的 $z_j$ 的影响几乎可以忽略不计。这将导致 softmax 输出接近于0或1，从而使得注意力权重极端化，失去分布的有效性。通过缩放，可以避免softmax函数的输入值过大或过小，确保计算出的注意力权重在合理范围内，从而使得模型能够有效地分配注意力。
因此，使用 $\sqrt{d_k}$ 作为缩放因子，有助于提高计算的稳定性和效率。

为什么是除以 $\sqrt{d_k}$ 而不是其他呢？

点积的方差： 在神经网络训练过程中，权重初始化和输入数据通常是随机的。在这个背景下，经过训练后的 $Q$ 和 $K$ 向量在某种程度上可以被视为随机向量，因为它们从随机初始化中演变而来，并且通过训练过程相互独立地学习。在计算 $Q K^T$ 时，点积的结果随着向量维度的增加而增大。具体来说，两个独立的随机向量的点积的期望值是 $d_k$ （当其元素均为零均值时）。因此，点积的方差大约与 $d_k$ 成正比。通过除以 $\sqrt{d_k}$ ，可以将结果的标准差（方差的平方根）缩放回合理范围，从而控制输出的稳定性。

以下是除以 $\sqrt{d_k}$ 的详细证明

假设 $Q$ 中的一项为 $q$ ， $K$ 中的一项为 $k$ ， $Q$ 和 $K$ 分别有 $d_k$ 项。根据上面的假设， $q$ 和 $k$ 两个变量的均值的方差均为0和1，且相互独立：

$\mathbb{E}[q] = 0$ , $\text{Var}(q) = 1$
$\mathbb{E}[k] = 0$ , $\text{Var}(k) = 1$

计算 $\text{Var}(qk)$

根据方差的定义：
$\text{Var}(qk) = \mathbb{E}[(qk)^2] - (\mathbb{E}[qk])^2$

1. 计算 $\mathbb{E}[qk]$

如果 $q$ 和 $k$ 独立：
$\mathbb{E}[qk] = \mathbb{E}[q] \cdot \mathbb{E}[k] = 0 \cdot 0 = 0$
所以：
$(\mathbb{E}[qk])^2 = 0^2 = 0$

2. 计算 $\mathbb{E}[(qk)^2]$

$qk)^2 = q^2 k^2$
如果 $q$ 和 $k$ 独立，则：
$\mathbb{E}[(qk)^2] = \mathbb{E}[q^2] \cdot \mathbb{E}[k^2]$
对于方差，我们知道：
$\mathbb{E}[q^2] = \text{Var}(q) + (\mathbb{E}[q])^2 = 1 + 0^2 = 1$
$\mathbb{E}[k^2] = \text{Var}(k) + (\mathbb{E}[k])^2 = 1 + 0^2 = 1$
因此：
$\mathbb{E}[(qk)^2] = \mathbb{E}[q^2] \cdot \mathbb{E}[k^2] = 1 \cdot 1 = 1$

3. 计算方差

将结果代入方差公式：
$\text{Var}(qk) = \mathbb{E}[(qk)^2] - (\mathbb{E}[qk])^2 = 1 - 0 = 1$

结果

因此，两个变量 $q$ 和 $k$ 相乘的方差为：
$\text{Var}(qk) = 1$

进一步计算方差 $\text{Var}(QK^T)$

给定：
$[q_1, q_2, \ldots, q_{d_k}] \quad \text{(维度为 } (1, d_k)\text{)}$
$[k_1, k_2, \ldots, k_{d_k}] \quad \text{(维度为 } (1, d_k)\text{)}$
计算外积：
$K^T = \sum_{i=1}^{d_k} q_i k_i$

计算 $\mathbb{E}[QK^T]$
假设 $q_i$ 和 $k_i$ 是独立的：
$\mathbb{E}[QK^T] = \mathbb{E}\left[\sum_{i=1}^{d_k} q_i k_i\right] = \sum_{i=1}^{d_k} \mathbb{E}[q_i k_i] = \sum_{i=1}^{d_k} \mathbb{E}[q_i] \cdot \mathbb{E}[k_i] = \sum_{i=1}^{d_k} 0 \cdot 0 = 0$
计算 $\mathbb{E}[(QK^T)^2]$
展开：
$\mathbb{E}[(QK^T)^2] = \mathbb{E}\left[\left(\sum_{i=1}^{d_k} q_i k_i\right)^2\right]$
使用协方差：
$\mathbb{E}[(QK^T)^2] = \sum_{i=1}^{d_k} \mathbb{E}[q_i^2] \mathbb{E}[k_i^2] + \sum_{i \neq j} \mathbb{E}[q_i k_i] \mathbb{E}[q_j k_j]$
假设 $q_i$ 和 $k_j$ 是独立的：
$\mathbb{E}[q_i k_j] = 0 \text{ (对于 } i \neq j\text{)}$
所以：
$\mathbb{E}[(QK^T)^2] = \sum_{i=1}^{d_k} \mathbb{E}[q_i^2] \mathbb{E}[k_i^2]$
已知：
$\mathbb{E}[q_i^2] = 1, \quad \mathbb{E}[k_i^2] = 1$
因此：
$\mathbb{E}[(QK^T)^2] = \sum_{i=1}^{d_k} 1 \cdot 1 = d_k$
计算方差
方差公式为：
$\text{Var}(QK^T) = \mathbb{E}[(QK^T)^2] - (\mathbb{E}[QK^T])^2$
$\text{Var}(QK^T) = d_k - 0^2 = d_k$