概念
注意力机制引入了显示的考虑随机线索(即有偏向性的选择某些输入)
引入了三个概率:
query(随机线索):想要查询的信息
key(不随机线索):本身所具有的属性
value(值):这个属性所对应的价值
注:key和value可以相同,也可以不相同。某一个属性key在某种情况、条件下或许会有不同的value。例如某物的价值因人而异
计算步骤
1.根据query和key计算两者的相似性或相关性,得到注意力分数s(向量点积等手段)
2.将s进行softmax处理得到a
3.a乘对应的value进行加权求和操作