【P17】Neural Machine Translation with Monolingual Translation Memory

最新推荐文章于 2022-11-07 17:06:46 发布

二叉树不是树_ZJY

最新推荐文章于 2022-11-07 17:06:46 发布

阅读量535

点赞数

分类专栏：自然语言处理 paper 文章标签： nmt memory nlp

本文链接：https://blog.csdn.net/qq_42341984/article/details/119535281

版权

自然语言处理同时被 2 个专栏收录

21 篇文章 3 订阅

订阅专栏

paper

19 篇文章 0 订阅

订阅专栏

ACL 2021

Abstract

1 简介

2 相关工作

2.1 TM-augmented NMT

Feng等人（2017）用双语词典增强了NMT，以解决不经常出现的单词翻译问题。
Gu等人（2018）提出了一个模型，检索与测试源句相似的例子，并用键值记忆网络对检索的源-目标对进行编码。
Cao和Xiong（2018）；Cao等人（2019）使用门控机制来平衡翻译记忆的影响。
Zhang等人（2018）通过检索n-grams和上调检索n-grams的概率来提出引导模型。
Bulte和Tezcan（2019）和Xu等人（2020）利用翻译记忆的模糊匹配，用检索的源-目标对增强源序列。
Xia等人（2019）直接忽略了TM的源侧，并将目标侧打包成一个紧凑的图。
Khandelwal等人（2020年）在大型双文本语料库上运行现有的翻译模型，并在每个解码步骤中记录所有的隐藏状态供以后的近邻搜索，这是非常耗费计算的。

2.2 Retrieval for Text Generation

离散检索作为一个中间步骤，已被证明对各种自然语言处理任务有益。

开放领域的问答检索支持性证据（例如，Chen等人，2017；Lee等人，2019；Karpukhin等人，2020）。
检索引导的生成在广泛的文本生成任务中获得了越来越多的关注，如
- 语言建模（Guu等人，2018；Khandelwal等人，2019；Guu等人，2020）
- 对话回应生成（Weston等人，2018；Wu等人，2019；Cai等人，2019a，b）
- 代码生成（Hashimoto等人，2018）A Retrieve-and-Edit Framework for Predicting Structured Outputs
- 其他知识密集型生成（Lewis等人，2020b）Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
  
  导读：https://zhuanlan.zhihu.com/p/280697113

2.3 NMT using Monolingual Data

3 方法

3.1 概述

整体框架如图1所示，整个翻译过程分解为两步：检索、生成。

符号
z	目标语言句子
x	输入：源语言
y	输出：目标语言
Z / 翻译记忆库（Translation Memory，TM）	目标语言句子的集合

给定源语言的输入x，根据一个相关函数 $f(x,z_i)$ ，检索模型首先从Z中选择一些可能有帮助的句子组成集合。
翻译模型同时考虑检索到的集合 $\{\left(z_{i}, f\left(x, z_{i}\right)\right\}_{i=1}^{M}$ 和原始输入 $x$ ，使用概率模型 $p\left(y \mid x, z_{1}, f\left(x, z_{1}\right), \ldots, z_{M}, f\left(x, z_{M}\right)\right)$ 生成输出 $y$ 。相关性得分 $f(x,z_i)$ 是翻译模型输入的一部分，鼓励翻译模型更多地关注更相关的句子。

3.2 检索模型

对源句子和候选目标句子进行相关性打分：采用dual-encoder框架，相关性打分可以变换为最大内积搜素（Maximum Inner Product Search，MIPS）。

最近邻搜索(NN)、最大内积搜索（MIPS）与(A)LSH算法

3.3 翻译模型

在标准encoder-decoder框架的基础上加入memory encoder，建立decoder和memory encoder之间的cross-attention。

3.4 训练

训练目标：优化模型参数 $\theta$ 和 $\phi$

损失函数： $-\log p\left(y^{*} \mid x, z_{1}, f\left(x, z_{1}\right), \ldots, z_{M}, f\left(x, z_{M}\right)\right)$ ，其中 $y^{*}$ 是参考翻译（reference translation）

冷启动问题

4 实验

4.2 常规场景

双语训练语料库是TM唯一来源。

4.3 低资源场景

低资源情况指使用单语TM，即使用目标语言的额外单语数据来提高翻译质量。

4.4 非参数领域自适应（Non-parametric Domain Adaptation）

TM的“即插即用”特性激励我们进行领域适配，通过使用领域特定的单语TM将单个通用领域模型适配到特定领域。

二叉树不是树_ZJY

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【P17】Neural Machine Translation with Monolingual Translation Memory

ACL 2021Abstract1 简介2 相关工作2.1 TM-augmented NMTFeng等人（2017）用双语词典增强了NMT，以解决不经常出现的单词翻译问题。Gu等人（2018）提出了一个模型，检索与测试源句相似的例子，并用键值记忆网络对检索的源-目标对进行编码。Cao和Xiong（2018）；Cao等人（2019）使用门控机制来平衡翻译记忆的影响。Zhang等人（2018）通过检索n-grams和上调检索n-grams的概率来提出引导模型。Bulte和Tezcan（2.
复制链接

扫一扫

专栏目录