mask主要为了将未来的数据替换成0
核心在于mask后的值要送入softmax中,0对应的softmax值为1,-1e9的值对应的softmax值才能接近于0,如下图:
softmax的方程式:(具体参考详细介绍:https://zhuanlan.zhihu.com/p/105722023)
在transformer中,mask_fill掩码中为什么把0替换成-1e9这么小的一个数
最新推荐文章于 2023-08-02 16:09:48 发布
mask主要为了将未来的数据替换成0
核心在于mask后的值要送入softmax中,0对应的softmax值为1,-1e9的值对应的softmax值才能接近于0,如下图:
softmax的方程式:(具体参考详细介绍:https://zhuanlan.zhihu.com/p/105722023)