本文模型:https://github.com/tensorflow/tensorflow/tree/master/tensorflow/models/rnn/translate
前一段时间在学习image caption,发现基本上所有的论文都引用了这篇论文以及另一篇。image caption的模型也很多都是sequence to sequence(encoder-decoder)的,当时看了很费解,这明明是一个机器翻译的模型呀,会有这么大的关系?于是决定来一探究竟,google了一下发现,我的妈呀,引用量上千了,看来这一定是一篇不得不读的神文了,于是决定好好学一学这篇文章提出了一些什么新的思想,encoder-decoder又究竟是怎么一回事儿呢。
注:本篇笔记不以论文顺序进行,只是提取出博主认为比较重要以及新颖和值得思考的点进行总结。
总体来说,本文提到首先将source sequence通过一个encode LSTM map成一个vector,然后再通过另一个decoder LSTM进行翻译得出output,这也恰恰是image caption里的思想呀(通过CNN将输入图像conv成一个vector或者feature map,然后再输入LSTM),原来大体是这样,接着看。
普通的部分本文将不再赘述,文中作者明确说到了自己模型的三大亮点:
(1)encoder LSTM来map inputs to a fixed vector, then feed the vector to another decoder LSTM to predict。