一.最常见的self-attention
对于自注意力机制而言,我们有的时候会遇到词性分类的任务,比如说给定一句话,我想知道这句话当中每一个单词的词性。但是使用双向lstm呢,会有很多信息被忽略掉,尤其是一些位于后面的词很可能前面的词对它的影响没有那么大,即使我们的lstm考虑了一些遗忘门,增强记忆的一些机制,位于最前面的单词和最后面的单词之间始终是具有一定距离的,而self-attnetion则可以直接对收尾的单词计算其相关性,没有任何的数据损失。因此我们可以采用自注意力机制,也就是self-attention来解决这个问题。同时self-attention在transformer当中也有着广泛的应用。
如上图所示,蓝色部分表示self-attention,首先我们self-attention找到每一个向量之间的联系,看是否考虑某一个向量对第一个向量a1会产生影响。而我们可以通过如下的方法来计算两个向量之间的相关联程度。如下图所示:
首先,我们拿到绿色的部分 。绿色