论文:Neural Machine Translation by Jointly Learning to Align and Translate
作者:Dzmirty Bahdanau et al.
1 Introduction
背景:神经机器翻译(Neural Machine Translation,NMT)被提出,其试图建立和训练一个单一大型的神经网络来阅读句子并输出正确翻译。大多数NMT模型基于编码器-解码器(encoder-decoders)。
问题:神经网络需要将源句(source sentence)的必要信息压缩到一个固定长度(fixed-length)的向量中。这会使NMT难以处理长句,特别是比训练语料库中的句子还要长的句子。(Cho et al.(2014b) showed that indeed the performance of a basic encoder–decoder deteriorates rapidly as the length of an input sentence increases.)
解决办法:扩展encoder-decoders模型(怎么扩展:learns to align and translate jointly),该模型每次翻译生成一个词时,都会在源句最相关性信息集中的位置进行软搜索(什么是软搜索?)。然后模型根据这些源位置相关的上下文向