Fine-Grained Attention Mechanism for Neural Machine Translation 论文笔记
该文是阅读Fine-Grained Attention Mechanism for Neural Machine Translation 论文总结的笔记,用来记录自己的理解和思考,一来记录自己的学习历程,二来期待和大家讨论研究,共同进步。
文章目录
1. 概述
这篇论文提出了一种细粒度(或者2D)的注意力机制,上下文向量中的每个维度都会单独获得一个注意力得分。在英德和英法德翻译任务中,从BLEU值看,该机制提高了翻译质量。另外对齐分析也表示该机制探索出了上下文向量的内部结构。
这里的注意力机制可以选择关注,在高纬度的上下文向量中编码的单个单词的许多可能解释其中的一个。这可以通过让注意力机制输出和上下文向量维度相同数量的得分,区别于现存的每个上下文向量返回一个值的各种注意力机制。
注意
这篇论文还讲解了基于注意力机制的神经机器翻译的原理以及各种注意力机制的变种,讲解得比较细致,有兴趣的同学可以移步原论文,此处不再赘述。
2. 模型结构
所有现有的注意力机制都是为每个上下文向量得出一个得分。然而这里发现每次给上下文向量一个得分并不必要,而且为上下文向量的每个维度赋一个得分可能会更好,因为每个维度代表了抓取的内部结构的一个不同的方面。词嵌入的每个维度都有不同的意义并且上下文能够用不同的方式来丰富每个维度的意义。这篇论文有两点不同:1)注重编码后的词向量而不是