Attention机制的本质来自人类视觉机制。举个例子来说,当我们观赏一幅画时,虽然我们可以看到整幅画的全貌,但是在我们深入仔细地观察时,其实眼睛聚焦的就只有很小的一块,这个时候人的大脑主要关注在这一小块图案上,也就是说这个时候人脑对整幅图的关注并不是均衡的,是有一定的权重区分的。这就是深度学习里的Attention Model的核心思想
Attention函数的本质可以被描述为一个查询到一系列(key-value)对的映射,在计算attention主要分三步
1. 将query和每个key进行相似度计算得到权重,常用的相似度函数有点积,拼接,感知机等
2. 使用一个softmax函数对这些权重进行归一化
3. 权重和相应的键值value进行加权求和得到最后的attention