Title:CapturingLongerContextforDocument-level Neural Machine Translation:A Multi-resolutional Approach
文章标题 | 一种为文档级神经机器翻译捕获更长的上下文多分辨方法 |
---|---|
文章的作者 | Zewei Sun, Mingxuan Wang, Hao Zhou, Chengqi Zhao, Shujian Huang, Jiajun Chen, Lei Li |
单位 | 南京大学 字节跳动 |
出版日期 | 18 Otc 2020 |
相关链接 | 论文https://arxiv.org/abs/2010.08961 代码GitHub |
Summary
本文提出了多分辨文档级翻译模型:MR Doc2Doc( multi-resolutional ),一种为文档级翻译训练神经序列到序列模型的方法(技巧)。
技巧:
- 多分辨率训练:将文档均分成k个不同粒度的片段,
k={1,2,4,8...}
,将所有片段作为训练语料。(让模型从多个角度“见识”训练语料的上下文关系,充分学习文档的上下文信息) - 使用额外的句子级语料:将任务数据集与域外句子级数据合并(任务是zh-en TED,域外维基百科 zh-en)(也算是多分辨率训练吧)
优点在于无需改变模型结构,使用序列到序列的方式来处理DNMT,训练得到的模型可以同时逐句翻译和整体翻译。
不足在于模型训练的计算量与序列长度呈平方关系,内存使用会成为瓶颈;
Research Objective
文献级神经机器翻译(DNMT,有的地方写的是 Document-level NMT、doc-lev NMT)有很多改进方法。其中,主流研究集中在模型架构修改上(包括hierarchical attention&