参考:https://zhuanlan.zhihu.com/p/35571412
什么是注意力机制?
注意力机制模仿了生物观察行为的内部过程,即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制。例如人的视觉在处理一张图片时,会通过快速扫描全局图像,获得需要重点关注的目标区域,也就是注意力焦点.
Encoder-Decoder框架
目前大多数的注意力模型都是依附在Encoder-Decoder框架下,但并不是只能运用在该模型中,注意力机制作为一种思想可以和多种模型进行结合,其本身不依赖于任何一种框架。
备注:所谓编码,就是将输入的序列编码成一个固定长度的向量;解码,就是将之前生成的固定向量再解码成输出序列。
Attention机制其实就是一系列注意力分配系数,也就是一系列权重参数罢了,就是加权。
attention函数
既然attention是一组注意力分配系数,那么他是如何实现的?这里要提出一个函数叫做attention函数,它是用来得到attention value的,比较主流的attention框架是: