Attention是给出QKV,KV往往是相同的,通过Q这个查询变量,查询V里面的关键信息。把关键信息整合到V里面,得到Z。其实Z就是V的一个新的特征表征(更加完善)。
Self-attention是attention的一个具体做法,要求QKV同源只不过是做了三组不同的线性变换而已。
如下图,求每句话中的单词的相似度。I和这句话每个单词进行QKV计算。have和这句话每个单词进行QKV计算…
给定一个X,通过自注意力模型,得到一个Z,这个Z就是对X的新的表征(词向量),Z这个词向量相比较X拥有了句法特征和语义特征。也就是说Z拥有了更多信息。
QKV来源不同分为不同的XXX-attention。如果Q和V不同源,但是K和V同源那么称为交叉注意力机制。