【论文笔记】Sequence to sequence Learning with Neural Networks

最新推荐文章于 2024-07-11 09:23:29 发布

Issac_33

最新推荐文章于 2024-07-11 09:23:29 发布

阅读量7.5k

点赞数 7

分类专栏： RNN NLP papers 文章标签： seq2seq 深度学习 rnn 机器学习

本文链接：https://blog.csdn.net/qq_35647180/article/details/53576809

版权

这篇论文笔记对比了前人的工作，如CNN和STM在序列学习上的不足，并介绍了Seq2Seq模型如何通过encoder对句子的主被动语态保持高度包容性，尤其适用于长句处理。PCA降维后的可视化展示了encoder的优秀性能。

摘要由CSDN通过智能技术生成

本文模型：https://github.com/tensorflow/tensorflow/tree/master/tensorflow/models/rnn/translate

前一段时间在学习image caption，发现基本上所有的论文都引用了这篇论文以及另一篇。image caption的模型也很多都是sequence to sequence（encoder-decoder）的，当时看了很费解，这明明是一个机器翻译的模型呀，会有这么大的关系？于是决定来一探究竟，google了一下发现，我的妈呀，引用量上千了，看来这一定是一篇不得不读的神文了，于是决定好好学一学这篇文章提出了一些什么新的思想，encoder-decoder又究竟是怎么一回事儿呢。

注：本篇笔记不以论文顺序进行，只是提取出博主认为比较重要以及新颖和值得思考的点进行总结。

总体来说，本文提到首先将source sequence通过一个encode LSTM map成一个vector，然后再通过另一个decoder LSTM进行翻译得出output，这也恰恰是image caption里的思想呀（通过CNN将输入图像conv成一个vector或者feature map，然后再输入LSTM），原来大体是这样，接着看。

普通的部分本文将不再赘述，文中作者明确说到了自己模型的三大亮点：
（1）encoder LSTM来map inputs to a fixed vector, then feed the vector to another decoder LSTM to predict。