目录
Attention机制本质上是对相关性的计算,Attention通常表示,将query(Q)和key-value pairs 映射到输出上,其中query、每个key、每个value都是向量,输出是V中所有values的加权,其中权重是由Query和每个key计算出来的,计算方法分为三步:
第一步:Q和K相似度计算
Q和K的相似度计算比较,用一种映射f来表示如下:
通常相似度的计算方法包括以下四种:
-
点乘 dot product
-
权重 General
-
拼接权重 Concat
-
感知器 Perceptron
第二步:归一化
将得到的相似度进行Softmax操作,进行归一化
第三步:加权求和计算
针对计算出来的权重 ,对V中所有的values进行加权求和计算,得到Attention向量