-
self-attention中的scale为什么需要除以维度的开方
-
原因来自于后续需要经过softmax进行缩放,所以根据softmax函数的特性,其本质是将输入缩放到同一分布中,例如(0,1),其计算过程是先用以e为底的函数拉大,再缩小。
-
当输入信息的维度 d 比较高,点积模型的值通常有比较大方差,从而导致 softmax 函数的梯度会比较小(有的很接近1,有的很接近0),导致输出的结果会向原本数值接近1的偏移。
-
数量级对softmax得到的分布影响非常大。在数量级较大时,softmax将几乎全部的概率分布都分配给了最大值对应的标签。
-
如果计算softmax的元素方差太大,将会导致softmax结果稀疏,进而导致梯度稀疏
-
transformers中的scale为什么需要除以维度的开方
于 2024-05-31 10:19:39 首次发布