Abstract
这篇文章发表于2016年,那段时间比较流行的架构是encoder-decoder,比较典型的代表作包括:
- Sequence to Sequence Learning with Neural Networks
- Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation
encoder-decoder架构的主要特点是:
- encoder将输入序列编码为固定长度的向量
- decoder解码向量生成目标序列
猜想
固定长度的向量是阻碍encoder-decoder结构性能提升的瓶颈
Proposal
对基础的encoder-decoder结构进行扩展,使其可以自动在输入序列中软搜索(soft-search)与当前要预测的目标词相关的部分,而不用硬性地将源序列中的这部分显式切分出来。作者将这种