注意力评分函数a,类似于前一文中的高斯核 掩蔽softmax 下面的masked_softmax函数 实现了这样的掩蔽softmax操作(masked softmax operation), 其中任何超出有效长度的位置都被掩蔽并置为0。