【面试】为什么在点积注意力计算中将结果除以embedding size的平方根？

Lewiz_124

于 2024-09-09 15:09:32 发布

阅读量730

点赞数 8

分类专栏： # AI面试文章标签： embedding 机器学习人工智能深度学习 transformer 神经网络

本文链接：https://blog.csdn.net/Lewiz_124/article/details/142059330

版权

AI面试专栏收录该内容

59 篇文章 0 订阅

订阅专栏

面试官提问：为什么在点积注意力计算中将结果除以embedding size的平方根？

面试者回答：

在Transformer中，对词向量（embedding）进行处理时，通常会将词向量与权重矩阵相乘，并且在点积注意力（dot-product attention）计算中会将结果除以词向量维度的平方根（ $\sqrt{d_k}$ ）。这样设计的主要原因是为了避免数值过大，进而稳定模型的梯度和训练过程。

1. 点积注意力中的数值缩放问题

在点积注意力中，Query和Key的点积是用来衡量它们之间的相似度的。点积的计算公式为：
$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right)V$
其中， $Q$ 是Query， $K$ 是Key， $d_k$ 是词向量的维度（embedding size）。

当 $d_k$ 较大时，Query和Key的点积结果会非常大。因为点积的值随着维度增加而增大，点积的数值通常是向量长度的数量级，这意味着如果不进行缩放，点积结果会变得非常大。一旦这个值过大，经过Softmax操作时，结果会趋近于极端（非常接近于0或1），从而导致梯度消失问题，进而使模型难以训练。

2. 平方根缩放的作用

为了减轻这种问题，将点积的结果除以 $\sqrt{d_k}$ ，即对点积进行缩放，使得数值保持在一个合理的范围内。这样做的主要好处是：

避免数值爆炸：当维度较高时，点积的值可能非常大，如果不进行缩放，Softmax的输出会变得非常极端，导致模型训练不稳定。通过除以 $\sqrt{d_k}$ ，可以将点积结果缩放到较小的范围，避免极端值出现。
提高梯度稳定性：数值过大会导致梯度的变化很小，甚至梯度消失，影响模型的学习效果。缩放后，梯度变化更加平滑，训练过程变得更为稳定。

3. 为何是 $\sqrt{d_k}$ ？

选择 $\sqrt{d_k}$ 是因为，假设 $Q$ 和 $K$ 的元素是独立同分布的零均值和单位方差的随机变量，点积 $QK^\top$ 的期望值是 $d_k$ ，因此点积的标准差大约为 $\sqrt{d_k}$ 。通过除以 $\sqrt{d_k}$ 可以将标准差归一化到一个较小的范围，使得数值更稳定。