Attention Focusing for Neural Machine Translation by Bridging Source and Target Embeddings 论文总结
该文是阅读Attention Focusing for Neural Machine Translation by Bridging Source and Target Embeddings 论文总结的笔记,用来记录自己的理解和思考,一来记录自己的学习历程,二来期待和大家讨论研究,共同进步。
文章目录
1. 概述
这篇论文想在程序上缩短源单词到目标单词的距离,从而加强他们的联系,方法就是在来源词嵌入和目标词向量之间建立桥梁。有三种策略:
1)来源一侧的桥模型,把来源词向量向输出序列靠近一步,每条来源词向量和各自的源隐藏状态在同一位置连接起来,这样注意力模型就可以从源词向量产生单词对齐这一方面得到提升;
2)目标一侧的桥模型,为目标序列的预测搜索更相关的来源词向量,为了把相关的源词向量和下一个目标隐藏状态连接的更紧密。特别的是,最合适的源单词是根据他们的注意力权重选择出来的,并且他们是用来与目标隐藏状态连接的更紧密的;
3)一个 直接的桥模型,直接连接来源和目的的词向量,从而最小化其他方面的翻译错误,训练对象是通过最小化目的单词向量和根据注意力模型选出的最相关的源词向量之间的距离来进行优化的。
实验分析证明该模型能够显著改善句子的翻译质量,对齐,尤其是带有目标单词的源单词效果更好。
2. 模型结构
如图1所示的seq2seq的NMT模型,可能存在很多方法来连接x和yt,这里介绍接下来的三种桥模型。
插入图1
2.1 来源侧桥模型
图3展示了来源测桥模型结构。编码器读入一个配置好词向量的单词序列在每个位置上生成了单词解释向量。然后简单地把词解释向量和它对应的词嵌入连接起来作为最终的解释向量。这样的话,词嵌入不止对注意力权重的计算有更强的贡献,还成为了解释向量的一部分,形成了加权的来源上下文向量,最终对目标单词的预测有了更强的影响。
2.2 目标侧桥模型
上述来源测桥模型为每个目标单词使用所有单词的嵌入,而在目标侧桥模型中只是搜索更相关的源词嵌入来建立连接。这是受到了SMT中的词对齐的部分启发,两端的单词因为他们互相是最可能的翻译对等体而结对,这些对是明确地记录下来,并且会进入系统内部的运作。尤其是,一个给定的目标单词,明确地决定最可能与之对齐的来源单词,并用这个源单词的词嵌入来支持将要形成的下一个目标单词的目标隐藏状态的预测。
图4展示了目标侧桥模型方法。
2.3 直接桥模型
比上述的两个桥模型更进一步,用来源的词嵌入来预测目标单词,这里用一个更直接的方法来连接两端的词嵌入。这是通过一个辅助的目标函数来缩小两端词嵌入的差别。
图4展示了带有辅助目标函数的直接桥模型。
更特殊的是,目的是为了让两端已经学习过的词嵌入变得可转化,比如,如果一个目标单词ei和一个来源单词fj对齐,就需要学习一个转换矩阵W,希望xi和yj在W中的差别趋向于0。因此,我们更新这个目标函数,用接下来延伸出的公式来训练出一个单句:
注意
1)直接桥模型是来源侧桥模型的拓展,源词嵌入是编码器的最终解释向量的一部分。这里也尝试了把辅助目标函数直接放在NMT的基本模型上。然而,经验研究表明结合的目标降低了翻译质量。可能的原因是在基本模型中学习好的两端的词嵌入太复杂,以至于无法约束。
2)上述公式中不使用具体的来源此前如xt,也可以使用来源词嵌入的加权求和。然而,初步实验显示这两种方法的效果差别非常小。因此,所有实验中这个公式都是使用xt。
3. 实验训练
这里实现了上述三个不同的方法来链接来源和目标词嵌入,这里使用中英翻译来进行实验,以获取桥方法的影响力。实验结果如下图:
![图片来自原论文]](https://img-blog.csdn.net/2018101308514015?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0Rvcm9uMTU=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
4. 总结
这篇论文提出了三个模型来连接NMT的来源端和目标端的词嵌入。它们都是为了沿着编码解码神经网络的延伸的信息过程来缩小二者的距离。
在中英翻译的实验中展示了提出的模型可以明显提升翻译质量,进一步分析可得这些模型可以:
1)比NMT基本模型学习到更好的词对齐;
2)缓解NMT中臭名昭著的过翻译和欠翻译的问题;
3)学习到来源词和目标词直接的映射。
未来会探索更深入的策略来链接依赖seq2seq和tree-basedNMT的来源侧和目标侧。另外还会把这些方法应用到其他seq2seq任务,包括自然语言会话。