小米AI实验室最新研究论文收录于COLING 2022，介绍一种更有效的鲁棒性神经机器翻译训练方法...

最新推荐文章于 2024-06-10 18:00:22 发布

小米技术

最新推荐文章于 2024-06-10 18:00:22 发布

阅读量1.3k

点赞数

文章标签：机器学习人工智能深度学习大数据 python

本文链接：https://blog.csdn.net/pengzhouzhou/article/details/126476241

版权

小米AI实验室与厦门大学合作，一项关于提高神经机器翻译模型鲁棒性的研究被COLING 2022接收为口头报告。研究提出迭代式数据交替训练框架和动态噪音比例采样策略，解决了现有方法的不足，提升了模型在有噪音数据上的翻译质量和抗干扰能力。实验结果显示，这种方法在真实和模拟噪音测试集上均表现出色。

摘要由CSDN通过智能技术生成

COLING 全称为International Conference on Computational Linguistics，是自然语言处理领域重要的国际会议，由国际计算语言学委员会（International Committee on Computational Linguistics，ICCL）创办，每两年举办一次。小米AI实验室联合厦门大学提出的一种更有效的鲁棒神经机器翻译训练方法被COLING 2022 接收为大会口头报告（Oral）。

题目：Towards Robust Neural Machine with Iterative Scheduled Data-Switch Training

作者：缪忠剑，李响，康立言，张文，周楚伦，陈毅东，王斌，张民，苏劲松

▍研究背景

神经机器翻译（Neural Machine Translation，NMT）一般基于高质量双语平行语料训练模型，在干净无噪音的测试集上获得了显著的翻译质量，并成为主流范式。然而，当待翻译的句子含有少量错误时，例如语音翻译中语音识别产生的错误，NMT通常会被噪音干扰产生错误译文。在真实应用场景中含有少量错误的句子十分常见，因此，提升NMT的鲁棒性，使其具备一定的抗干扰能力，不仅具有重要的学术研究价值，而且也是实际机器翻译产品应有的能力。

此前的研究者们主要从两个方面提升NMT的鲁棒性：

1. 面向数据的方法：可以视为一种数据增强的方法，针对实际错误类型构造含有噪音的对抗训练样本（Adversarial Training Example），并将其添加到原始训练数据中形成混合类型训练数据用于训练NMT模型；

2. 面向模型的方法：从优化模型结构和训练方法等维度入手，研究者们探索过多任务学习，对比学习，对抗训练，引入额外模块等方法提升NMT鲁棒性。

虽然上述方法有效提升了NMT的鲁棒性，但仍存在两点不足：

1. 在利用对抗训练样本时，往往不加区分地使用对抗训练数据和原始训练数据混合而成的训练数据，由于两种数据存在较大差异，因此直接粗暴使用混合数据不是最佳选择；

2. 在构建对抗训练样本时，往往按照固定比例对干净样本添加错误（噪声），比例过大降低模型在干净无噪音数据上的翻译质量，反之则无法有效提升模型对噪音数据的抗干扰能力，因此使用固定噪音比例不是最佳选择。‍‍‍‍‍‍‍‍‍

基于课程学习思想，我们提出了一种更有效的构建和使用对抗训练样本方法来提升NMT鲁棒性，引入了两个训练阶段，每个阶段使模型专注于基于原始训练数据或对抗训练样本进行优化，克服了同时使用混合数据的缺陷。为了更好地学习这两类数据，防止灾难遗忘问题，我们迭代式的开展两个训练阶段。此外，为了防止固定噪音比例构建对抗训练样本的不足，我们设计了一种基于课程学习的噪音比例采样方法，在每个训练阶段渐进式增加噪音比例使模型能够从易到难学习训练数据中的噪音。

本文方法具有如下优势：