Seq2Seq中的Attention和self-attention
一、Seq2Seq Model
首先介绍Seq2Seq模型,进而引入Attention机制。Seq2Seq模型的经典应用是语言模型,类似于语言翻译的例子(英译汉),Seq2Seq的目的就是将英文句子(输入Sequence),转换为汉语句子(输出Sequence),这里的Sequence是由字(单词)的序列。这种Seq2Seq通常Encoder-Decoder结构组成,其中encoder将输入Sequence转换为embedding向量,用来高度的表示输入信息。而decoder则将embedding向量作为输入,进而将embedding向量转化为输出Sequence。如下图:
![](https://i-blog.csdnimg.cn/blog_migrate/137f920e03cad7cc877ea607901eb5c4.png)
二、Attention Model
之前的Seq2Seq模型中