预训练神经机器翻译研究进展分析

outside_default.png

来源:专知
本文约1300字,建议阅读5分钟
致力于对PTNMT的现状和相关问题进行系统性的整理和分析,从引入PTM的预训练方法、使用策略以及特定任务等角度对PTNMT方法进行详细的分类,并对PTNMT方法解决的问题进行总结,最后对PTNMT的研究进行展望。

outside_default.png

神经机器翻译(NMT)模型通常使用双语数据进行监督训练,而构建大规模双语数据集是一个巨大挑战。相比之下,大部分语言的单语数据集较为容易获取。近年来,预训练模型(PTM)能够在海量的单语数据上进行训练,从而得到通用表示知识,来帮助下游任务取得显著的性能提升。目前基于预训练的神经机器翻译(PTNMT)在受限资源数据集上已被广泛验证,但如何高效地在高资源NMT模型中利用PTM仍亟待研究。该文致力于对PTNMT的现状和相关问题进行系统性的整理和分析,从引入PTM的预训练方法、使用策略以及特定任务等角度对PTNMT方法进行详细的分类,并对PTNMT方法解决的问题进行总结,最后对PTNMT的研究进行展望。

机器翻译是自然语言处理领域中一个重要的研 究方向,其主要实现的功能是将源语言翻译成目标语 言。近年来,随着深度学习技术在人工智能领域的发 展,神 经 机 器 翻 译 (Neural Machine Translation, NMT)已经 成 为 机 器 翻 译 方 向 中 的 主 流 方 法。从 2013年发 展 至 今,研 究 人 员 提 出 许 多 模 型 来 实 现 NMT,例如,CNN [1]、RNN [2]、Transformer [3]等,最终 基于自注意力网络设计的 Transformer成为了 NMT 的主流范式[4]。Transformer的出现,不 仅 带 动 了 NMT 的 发 展,也带动了整个自然语言处理领域的发展。其中, 受 Transformer 影 响 出 现 的 大 规 模 预 训 练 模 型 (Pre-TrainedModel,PTM)在许多自然语言处理任务上都取得了先进的性能。大量工作表明[5-9],在大 规模无标签数据上训练的 PTM 可以学习到“通用 表示知识”,这使 PTM 拥有强大的语言理解和生成 能力。PTM 的“通用表示知识”也引起了机器翻译 研究人员的关注,研究人员期望通过引入 PTM 来 提高 NMT 的性能。这种将 PTM 引入 NMT 的方 法被称为预训练神经机器翻译(Pre-trainedNeural MachineTranslation,PTNMT)。与不引入 PTM 的 NMT 相 比,PTNMT 的 优 势可以总结为以下几点: (1)PTM 可以使 NMT 模型很好地利用无标 签数据; (2)PTM 可以提高 NMT 模型的泛化能力和 鲁棒性; (3)PTM 可 以 帮 助 NMT 搭 建 通 用 的 翻 译 模型。当前,PTNMT 存在大量的工作,但尚不存在独 立地对其进行总结的综述文章,已有的 PTNMT 相 关整理工作都是以一节的形式出现在 PTM 综述文 章里。一部分工作[10-11]仅简单地对 PTNMT 进行 介绍,另一部分工作[12]则是从单语言和多语言角度 对 PTNMT 的部分工作进行分类说明。虽然也存 在对PTNMT 整体发展进行描述的报告[13],但这些 工作都缺少对 PTNMT 相关工作的系统性整理和 分析。本文主要以 PTNMT 的构建、问题分析和应 用为切入点,对相关工作进行详细的分类,侧重于对 不同方法进行对比,涵盖了最新的相关工作,分析了 PTNMT 的优缺点及其对其他任务的启发,首次完 成对 PTNMT 相关工作的系统性整理和分析工作。本文组织结构如下:第 1 节简单介绍 NMT、 PTM 和 PTNMT 的背景;第2节介绍 PTNMT 相 关工作的分类对比;第3节总结 PTNMT 的优缺点 并进行相关分析;第4节对 PTNMT 研究的未来进 行展望;第5节总结本文内容。

outside_default.png

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

outside_default.png

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值