transformers中的scale为什么需要除以维度的开方

lucky_append

已于 2024-06-16 13:52:30 修改

阅读量208

点赞数 1

文章标签：人工智能算法

于 2024-05-31 10:19:39 首次发布

本文链接：https://blog.csdn.net/qq_41728178/article/details/139345521

版权

self-attention中的scale为什么需要除以维度的开方
- 原因来自于后续需要经过softmax进行缩放，所以根据softmax函数的特性，其本质是将输入缩放到同一分布中，例如（0,1），其计算过程是先用以e为底的函数拉大，再缩小。
- 当输入信息的维度 d 比较高，点积模型的值通常有比较大方差，从而导致 softmax 函数的梯度会比较小(有的很接近1,有的很接近0)，导致输出的结果会向原本数值接近1的偏移。
- 数量级对softmax得到的分布影响非常大。在数量级较大时，softmax将几乎全部的概率分布都分配给了最大值对应的标签。
- 如果计算softmax的元素方差太大，将会导致softmax结果稀疏，进而导致梯度稀疏