数据重生:让神经机器翻译中的不活跃样本“复活”

本文介绍了数据重生技术,这是一种针对神经机器翻译(NMT)中不活跃样本的处理方法。通过对不活跃样本的识别和激活,数据重生能帮助模型提高翻译性能。实验证明,结合数据去噪、课程学习和数据多样化等方法,数据重生能进一步提升NMT系统的翻译效果。
摘要由CSDN通过智能技术生成

⬆⬆⬆              点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

近几年,神经机器翻译(Neural Machine Translation, NMT)技术取得了令人瞩目的突破。其中,大规模训练数据集是神经机器翻译模型最近取得成功的核心。然而,随着数据规模的增大,数据中的复杂模式和潜在噪声,使得训练NMT变得越发困难。为了解决这个问题,研究人员提出了充分利用训练数据这一想法。在此想法的基础之上,数据去噪、课程学习和数据多样化等数据操控方法相继被提出。

数据重生作为一种新的替代的方案,也是在此背景下提出的。相比其他数据操控方法,数据重生关注于识别和激活数据集中的不活跃样本,从而帮助模型更好的学习数据。数据重生本身能够实现数据多样化和数据去噪的部分功能,但是作者在实验中发现,将数据重生与其他数据操控方法相结合时,能够帮助模型进一步提高翻译性能,说明了数据重生与其他方法有一定的互补性。

 

在AI Time PhD EMNLP2020专场四直播间中,我们有幸邀请到了提出数据重生的第一作者,香港中文大学博士生焦文祥,为大家分享这项研究工作!

焦文祥:香港中文大学计算机科学与工程系博士生,导师为金国庆教授与吕荣聪教授。主要研究方向为基于对话的情绪识别和神经机器翻译。

一、 机器翻译系统

1.  什么是机器翻译?

机器翻译是不需要人力参与,由计算机将输入语言翻译成目标语言的过程。现如今,随着机器翻译的蓬勃发展加上互联网的普及,各大互联网公司都推出了机器翻译服务,例如Google Translate、Bing Translator、DeepL、Tencent TransSmart、 Baidu翻译等等。

2.  机器翻译系统的组成模块

为了构建一个性能良好的机器翻译系统,首先需要构建一个模型;其次,需要有足量的双语平行数据作为输入来训练模型;最后,需要有基于数据来优化模型的算法。

图1:机器翻译系统

3.  目前面临的问题及已有的解决方案

在以上三个模块中,数据被视为机器翻译成功的基础,尤其对于如今的神经机器翻译(NMT)系统而言。Koehn等人在2017年的一项工作中就展示了,NMT需要大量的数据才可以训练一个性能良好的系统。但是随着数据规模的增大,数据中的复杂模式和潜在噪声,使得训练NMT变得越发具有挑战性。

图2:大数据面临的挑战

面对这个问题,充分利用训练数据作为一个可行的想法被提出,随之而来的是数据去噪、课程学习和数据多样化等数据操控方法的提出。其中,数据去噪的核心思想认为训练数据中存在一定的噪声数据,需要将噪声数据从训练数据中移除,让模型在比较干净的数据上进行训练;课程学习的出发点是认为模型学习数据的过程可以模拟人类学习的过程,即让模型按照由易到难的顺序依次学习数据;数据多样化则是增加同一语义下的源端和目标端句子形式来提高数据的多样性,即使用训练好的模型翻译双语数据的一端,以此得到合成数据࿰

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值