因为要写作业,我都不记得老师上课有讲attention,作业十分艰难的写完了,但是还不知道attention是个啥,在此,准备看一篇文章,搞懂这是个啥。
原文地址
解释
she is eating a green apple
当我们看到eating,我们期待很快看到一个food,但有可能不是直接连着eating。
Seq2Seq 有啥毛病
广泛来讲,seq2seq是用来把输入序列转换成一个新的,这俩序列都是任意长度。有一个encoder-decoder机制。应用比如文本/音频中多国语言转化,问答语录生成,语法树配对。
encoder: 处理一个输入序列,压缩信息称一个固定长度的context/thought向量;decoder是初始化context向量输出一个转化后的结果。
encoder和decoder都是RNN, 比如用在lstm或者GRU单元上。固定长度的context向量的一个关键显著的缺点是记忆长句子不合适。它经常忘记第一部分一旦他完成整个输入。因此这个attention机制诞生了(2015)
为了翻译而诞生
attention机制是为了帮助记忆长句子在NMT(neural machine translation)中, 他不是建议一个单一的context向量从encoder最后的hidden state,而是建立 shortcuts 在context向量和整个输入之间。这些shortcut之前connections的权重,是为每一个输出定制的。