各种注意力机制的PyTorch实现
先前我们实现的注意力评分函数为了简便起见没有引入掩码机制,一般而言我们会在注意力机制中加入mask和dropout,对于前者,具体会用到。维向量(已做了词嵌入), 该序列的自注意力将输出一个长度相同的序列。是注意力评分函数,然后将其扔到softmax里得到。,不能直接相加,所以需要先将其形状分别扩展为。,这说明自注意力的权重矩阵的形状是正方形。为例,其形状变化过程为(这里是批量计算),此时多头注意力就简化成了单头注意力。的张量,这就是多头注意力的最终输出结果。,然后再进行广播相加,得到形状为。.......
复制链接