Softmax 这个算法你应该了解了,如果不了解的话查看这里:10 分钟搞懂 softmax 的底层逻辑。
说白了,Softmax 的作用就是将输入数据转换为 [0-1] 之间的概率分布。
Softmax 不仅仅会在模型的最后一层出现,在 Transformer 的注意力层中也会出现。
但是,不知你是否注意到,在 Transformer 架构中,尤其是右侧的解码器部分,第一个注意力层中使用的名字叫做 Masked Multi-head Attention,而不是 Multi-head Attention,如下红框标注所示。
在往下阅读之前,你肯定认同:Masked Multi-head Attention 和普通的 Multi-head Attention 是有所不同的(当然了,要不然也不会改个名字🙃)。