Effective Approaches to Attention-based Neural Machine Translation 学习笔记
本文是阅读 Effective Approaches to Attention-based Neural Machine Translation 之后的学习总结,如有不妥之处,烦请各位斧正。
0. 概述
这篇论文重在研究基于attention的神经机器翻译模型,测试了两种简单有效的attention机制:
1. 全局方法:总是关注所有的源单词。比前人的方法结构上更简单。
2. 局部方法:每次只关注源单词的一个子集。比全局方法或者soft attention花销要更小,同时与hard attention不同的是,更容易实现和训练。另外,可以在这些基于attention的模型测试不同的对齐函数。
论文中除了在WMT翻译任务中测试英德互译之外,还根据学习能力,处理长句子的能力,attention机制的选择,对齐质量和翻译的输出来对模型进行评估。
1. 神经机器翻译(NMT)
神经机器翻译系统是定向地将翻译源句,就是将x1,……,xn翻译成目标句子,y1,……,ym的条件概率建模的神经网络。NMT的基本形式包含两个组成成分:
1. 编码器:计算得到每个源句的表示。
2. 解码器:每次形成一个目标单词
因此将条件概率分解为:
在解码器的分解建模中,常见的选择就是用RNN。可以参数化每个单词yj解码的概率:
g是输出词汇大小向量的转换函数。这里,hj是RNN的隐藏单元,是这样计算的: