参考:
这个视频量短而精
https://www.youtube.com/watch?v=XhWdv7ghmQQ
GitHub - wangshusen/DeepLearning
以机器翻译、rnn-seq2se2引入attention为例
1.attention
最早提出attention的是15年的这篇论文
在encoder结束之后,output一个全局的s0,这包含了h1...hm的所有信息,同时s0也作为decoder的input。
用权重apha表示s和h的相关性,(相关性越高,权重越大)。
encoder有m个状态,所以一共有m个apha,这里所有