https://blog.csdn.net/hpulfc/article/details/80449561
https://blog.csdn.net/hpulfc/article/details/80448570
https://blog.csdn.net/songbinxu/article/details/80739447
谷歌2017年发表的那篇《Attention is all you need》
Sequence to Sequence
Attention Mechanism的大量使用源于机器翻译,机器翻译本质上是解决一个Sequence-to-Sequence问题
Sequence to Sequence 的各种形式
Sequence-to-Sequence一般有5种形式,区别在于输入和输出序列的长度,以及是否同步产出,具体到每一个基本的模块,又能用不同的网络结构实现,包括CNN、RNN,它们的实现基本上离不开一个固定的结构:Encoder-Decoder结构。
Attention解决了它的“分心问题”
,
attention model的要求:
1.对输入序列的不同局部,赋予不同的重要性(权重)
2.对于不同的输出序列局部,给输入局部不一样赋权规划或方案(输出序列局部由上一阶段输出和当前阶段的输入局部构成)
对于上面给出的疑问(那些权重应该怎么给),Attention给出的答案是,让输出序列决定。