1. 发展历程
Seq2Seq在2014年顶会正式被提出,其中在同一年有两篇文章都用到了序列到序列,编码器解码器的方式实现机器翻译。其中GPU也在2014年被提出。
在2015年,针对Seq2Seq的一些问题,提出了注意力Attention机制,已经逐步开始爆发。
在2017年,谷歌发表了一篇Attention is All you need,将注意力机制推到了顶峰,其中也有学者用Self-Attention来替代cnn和Rnn
2. 基础理解
2.1 基础的神经网络
传统的单层神经网络,就是传入一个输出,对应的传出相应的输出。
相对于传统的神经网络,经典的RNN网络如下所示,就是每一个输入都是依赖于上一层次的隐藏层状态和当前的输入。