Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation
这篇论文是为解决natural language processing (NLP)领域的问题。 应用RNN encoder-decoder技术进行静态机器翻译(英语–>法语 -_-,作为中国人,我总以为会转换成汉语,然而非也)。 encoder and decoder分别为一个RNN结构,encoder可以将不定长序列转换成定长序列,decoder的作用与之相反。此外,使用了隐藏节点来增强记忆功能,使训练更加容易。本文创新点主要就在隐藏节点上,是对LSTM进行的改进,运算速度更快。该方法能够很好地获取语义规则,保护语义和语法结构。
看图就能总体上明白这篇文章要讲的是什么。
主要训练过程,连接这两个RNN,使最大似然函数取最大值。这个是可微分的模型,可以使用梯度下降来训练。这里讲的比较笼统,中间过程略去,只说会得到中间状态 ht−<