ACL 2021
Abstract
1 简介
2 相关工作
2.1 TM-augmented NMT
- Feng等人(2017)用双语词典增强了NMT,以解决不经常出现的单词翻译问题。
- Gu等人(2018)提出了一个模型,检索与测试源句相似的例子,并用键值记忆网络对检索的源-目标对进行编码。
- Cao和Xiong(2018);Cao等人(2019)使用门控机制来平衡翻译记忆的影响。
- Zhang等人(2018)通过检索n-grams和上调检索n-grams的概率来提出引导模型。
- Bulte和Tezcan(2019)和Xu等人(2020)利用翻译记忆的模糊匹配,用检索的源-目标对增强源序列。
- Xia等人(2019)直接忽略了TM的源侧,并将目标侧打包成一个紧凑的图。
- Khandelwal等人(2020年)在大型双文本语料库上运行现有的翻译模型,并在每个解码步骤中记录所有的隐藏状态供以后的近邻搜索,这是非常耗费计算的。
2.2 Retrieval for Text Generation
离散检索作为一个中间步骤,已被证明对各种自然语言处理任务有益。
-
开放领域的问答检索支持性证据(例如,Chen等人,2017;Lee等人,2019;Karpukhin等人,2020)。
-
检索引导的生成在广泛的文本生成任务中获得了越来越多的关注,如
-
语言建模(Guu等人,2018;Khandelwal等人,2019;Guu等人,2020)
-
对话回应生成(Weston等人,2018;Wu等人,2019;Cai等人,2019a,b)
-
代码生成(Hashimoto等人,2018)A Retrieve-and-Edit Framework for Predicting Structured Outputs
-
其他知识密集型生成(Lewis等人,2020b)Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
导读:https://zhuanlan.zhihu.com/p/280697113
-
2.3 NMT using Monolingual Data
3 方法
3.1 概述
整体框架如图1所示,整个翻译过程分解为两步:检索、生成。
符号 | |
---|---|
z | 目标语言句子 |
x | 输入:源语言 |
y | 输出:目标语言 |
Z / 翻译记忆库(Translation Memory,TM) | 目标语言句子的集合 |
- 给定源语言的输入x,根据一个相关函数 f ( x , z i ) f(x,z_i) f(x,zi),检索模型首先从Z中选择一些可能有帮助的句子组成集合。
- 翻译模型同时考虑检索到的集合 { ( z i , f ( x , z i ) } i = 1 M \{\left(z_{i}, f\left(x, z_{i}\right)\right\}_{i=1}^{M} {(zi,f(x,zi)}i=1M和原始输入 x x x,使用概率模型 p ( y ∣ x , z 1 , f ( x , z 1 ) , … , z M , f ( x , z M ) ) p\left(y \mid x, z_{1}, f\left(x, z_{1}\right), \ldots, z_{M}, f\left(x, z_{M}\right)\right) p(y∣x,z1,f(x,z1),…,zM,f(x,zM))生成输出 y y y。相关性得分 f ( x , z i ) f(x,z_i) f(x,zi)是翻译模型输入的一部分,鼓励翻译模型更多地关注更相关的句子。
3.2 检索模型
对源句子
和候选目标句子
进行相关性打分:采用dual-encoder框架,相关性打分可以变换为最大内积搜素(Maximum Inner Product Search,MIPS)。
3.3 翻译模型
在标准encoder-decoder框架的基础上加入memory encoder,建立decoder和memory encoder之间的cross-attention。
3.4 训练
训练目标:优化模型参数 θ \theta θ和 ϕ \phi ϕ
损失函数: − log p ( y ∗ ∣ x , z 1 , f ( x , z 1 ) , … , z M , f ( x , z M ) ) -\log p\left(y^{*} \mid x, z_{1}, f\left(x, z_{1}\right), \ldots, z_{M}, f\left(x, z_{M}\right)\right) −logp(y∗∣x,z1,f(x,z1),…,zM,f(x,zM)),其中 y ∗ y^{*} y∗是参考翻译(reference translation)
冷启动问题
4 实验
4.2 常规场景
双语训练语料库是TM唯一来源。
4.3 低资源场景
低资源情况指使用单语TM,即使用目标语言的额外单语数据来提高翻译质量。
4.4 非参数领域自适应(Non-parametric Domain Adaptation)
TM的“即插即用”特性激励我们进行领域适配,通过使用领域特定的单语TM将单个通用领域模型适配到特定领域。