【P17】Neural Machine Translation with Monolingual Translation Memory

ACL 2021

Abstract

1 简介

2 相关工作

2.1 TM-augmented NMT

  • Feng等人(2017)用双语词典增强了NMT,以解决不经常出现的单词翻译问题。
  • Gu等人(2018)提出了一个模型,检索与测试源句相似的例子,并用键值记忆网络对检索的源-目标对进行编码。
  • Cao和Xiong(2018);Cao等人(2019)使用门控机制来平衡翻译记忆的影响。
  • Zhang等人(2018)通过检索n-grams和上调检索n-grams的概率来提出引导模型。
  • Bulte和Tezcan(2019)和Xu等人(2020)利用翻译记忆的模糊匹配,用检索的源-目标对增强源序列。
  • Xia等人(2019)直接忽略了TM的源侧,并将目标侧打包成一个紧凑的图。
  • Khandelwal等人(2020年)在大型双文本语料库上运行现有的翻译模型,并在每个解码步骤中记录所有的隐藏状态供以后的近邻搜索,这是非常耗费计算的。

2.2 Retrieval for Text Generation

离散检索作为一个中间步骤,已被证明对各种自然语言处理任务有益。

  • 开放领域的问答检索支持性证据(例如,Chen等人,2017;Lee等人,2019;Karpukhin等人,2020)。

  • 检索引导的生成在广泛的文本生成任务中获得了越来越多的关注,如

2.3 NMT using Monolingual Data

3 方法

3.1 概述

image-20210709162418054

整体框架如图1所示,整个翻译过程分解为两步:检索、生成。

符号
z目标语言句子
x输入:源语言
y输出:目标语言
Z / 翻译记忆库(Translation Memory,TM)目标语言句子的集合
  1. 给定源语言的输入x,根据一个相关函数 f ( x , z i ) f(x,z_i) f(x,zi),检索模型首先从Z中选择一些可能有帮助的句子组成集合。
  2. 翻译模型同时考虑检索到的集合 { ( z i , f ( x , z i ) } i = 1 M \{\left(z_{i}, f\left(x, z_{i}\right)\right\}_{i=1}^{M} {(zi,f(x,zi)}i=1M和原始输入 x x x,使用概率模型 p ( y ∣ x , z 1 , f ( x , z 1 ) , … , z M , f ( x , z M ) ) p\left(y \mid x, z_{1}, f\left(x, z_{1}\right), \ldots, z_{M}, f\left(x, z_{M}\right)\right) p(yx,z1,f(x,z1),,zM,f(x,zM))生成输出 y y y。相关性得分 f ( x , z i ) f(x,z_i) f(x,zi)是翻译模型输入的一部分,鼓励翻译模型更多地关注更相关的句子。

3.2 检索模型

源句子候选目标句子进行相关性打分:采用dual-encoder框架,相关性打分可以变换为最大内积搜素(Maximum Inner Product Search,MIPS)

最近邻搜索(NN)、最大内积搜索(MIPS)与(A)LSH算法

3.3 翻译模型

在标准encoder-decoder框架的基础上加入memory encoder,建立decoder和memory encoder之间的cross-attention。

3.4 训练

训练目标:优化模型参数 θ \theta θ ϕ \phi ϕ

损失函数: − log ⁡ p ( y ∗ ∣ x , z 1 , f ( x , z 1 ) , … , z M , f ( x , z M ) ) -\log p\left(y^{*} \mid x, z_{1}, f\left(x, z_{1}\right), \ldots, z_{M}, f\left(x, z_{M}\right)\right) logp(yx,z1,f(x,z1),,zM,f(x,zM)),其中 y ∗ y^{*} y是参考翻译(reference translation)

冷启动问题

4 实验

4.2 常规场景

双语训练语料库是TM唯一来源。

4.3 低资源场景

低资源情况指使用单语TM,即使用目标语言的额外单语数据来提高翻译质量。

4.4 非参数领域自适应(Non-parametric Domain Adaptation)

TM的“即插即用”特性激励我们进行领域适配,通过使用领域特定的单语TM将单个通用领域模型适配到特定领域。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值