一、因为softmax的输入很大时,其梯度会变的很小,趋近于0;
二、除以根号Dk的目的就是使得,QK/Dk满足方差稳定到1,使得softmax的梯度不至于太小
参考:
transformer中的attention为什么scaled? - 知乎
一、因为softmax的输入很大时,其梯度会变的很小,趋近于0;
二、除以根号Dk的目的就是使得,QK/Dk满足方差稳定到1,使得softmax的梯度不至于太小
参考:
transformer中的attention为什么scaled? - 知乎