Attention
注意力机制可以描述为一个函数,这个函数将query和一组key-value对映射成一个输出。
Scaled Dot-Porduct Attention
具体的:
attention 与 self attention:
以Encoder-Decoder框架为例,输入Source和输出Target内容是不一样的,比如对于英-中机器翻译来说,Source是英文句子,Target是对应的翻译出的中文句子,Attention发生在Target的元素Query和Source中的所有元素之间。
Self Attention,指的不是Target和Source之间的Attention机制,而是Source内部元素之间或者Target内部元素之间发生的Attention机制,也可以理解为Target=Source这种特殊情况下的Attention。
代码可以参考大神的这两个repo:
(1)https://github.com/CyberZHG/keras-self-attention
(2)https://github.com/CyberZHG/keras-multi-head