干货!理解和改进针对机器翻译任务的序列到序列预训练

点击蓝字

d4adb9567b0f9e3b34502d3203a0f291.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

9ea218533de641db5198dab76ca65466.gif

本研究旨在理解和改进针对机器翻译任务的序列到序列的预训练,特别是预训练解码器的研究。

我们发现序列到序列的预训练对机器翻译任务来说是一把双刃剑:一方面这个模块可以提高翻译模型的译文的准确性和多样性;另一方面,由于预训练和下游微调任务的不同,预训练解码器会引入生成风格的偏移以及过度自信的问题,从而限制模型性能。

基于此,本工作提出了两个简洁有效的方法:领域内预训练和输入自适应。实验表明,我们的方法可以有效的提高模型性能和鲁棒性。

本期AI TIME PhD直播间,我们邀请到香港中文大学计算机系博士生——王文轩,为我们带来报告分享《理解和改进针对机器翻译任务的序列到序列预训练》。

954abe551bed6b593b77f011117b0352.png

王文轩:

香港中文大学计算机系博士研究生,师从Dr. Michael Lyu吕荣聪教授。主要研究方向是机器翻译等自然语言处理模型的可靠性。

我们经研究发现,预训练对于机器翻译任务而言是把双刃剑,一方面它可以提高机器翻译的性能,包括降低错误和提升翻译的多样性。

但同时,我们也发现了一些它的坏处,一个是数据的gap会导致翻译过程中发生迁移问题,从而影响最终的效果;另一个是预训练和下游任务目标的不同,会导致预训练模型在fine-tuning中遇到问题。基于此,我们提出了两种简单有效的方法,其中一种是加入一些noise。

Motivation

●Multilingual Pre-training for Neural Machine Translation

预训练在自然语言处理任务上的火爆,使其常常被用来提高下游任务的性能。

647ce39d286d4adb85b222670b1e8ad9.png

经过预训练后,在下游任务中的自然语言处理就能够达到一个很好的效果。但是对于机器翻译来说,存在一个gap。

对于自然语言理解模型,有一个encoder就可以了;但是对于机器翻译来说,我们需要一个encoder和一个decoder。

0f9071950120d9205262e6f2397ff01c.png

●How much does the jointly pretrained decoder matter?

在本研究之中,我们想办法去理解这种decoder的作用。

Understanding

● Inpact on translation performance.

e69225abb701f7f13f9b4f2fbd67e342.png

如上图,我们load了不同的组件,如预训练后的encoder和decoder我们也有一些新的发现,比如预训练encoder比预训练decoder的效果更明显;

尽管如此,预训练的decoder如果load进去也能进一步的提升翻译性能,但是这个性能在下游任务是高资源的时候并不明显。我们在下面挑选了一些case来展示:

f908814d36107bef73adb3c31457422f.png

首先,我们发现用了预训练decoder的模型很容易生成高质量翻译的,不过其会每次进行调整顺序,导致容错较低。其次,在低资源的fine-tuning上,如果漏掉decoder会显著减少翻译的错误。

基于以上两点发现,我们进行了详细的实验。

51802f889a31630987c7335840c5cfae.png

我们将multiple reference作为测试集来衡量模型的性能,通过这种multiple reference evalution,我们可以显著的提升模型的性能。对于降低错误,我们组织了一个详尽的human evalution,然后发现继承decoder之后可以显著的降低翻译错误。

上述介绍的都是Seq2Seq pretraining的好处,下面我们介绍一下因为上游pretrain任务和下游机器翻译任务的不同而在后续可能导致的问题。

● domain discrepancy 

● objective discrepancy

首先,我们来看domain的不同。

■ Domain Discrepancy

◆ lexical Distribution in Training Data 

◆ a clear difference between WMT news data and CC data. 

◆ a domain shift from pretraining to finetuning.

fd59441229c09095018107f4217e1653.png

我们来衡量了这种domain gap,并画出了词的分布。上图显示,越往右则会发现词频越少。CC data和WMT data分布的不同在尾部越发的明显。预训练和下游任务是有一个domain gap的。

刚刚我们分析的是训练集,接下来我们通过一个分类器来证明对WMT来说,其训练集和测试集是同分布的。方法是我们训练了一个WMT data的训练集和CC data的二分类,来对我们的测试集进行分类。

我们发现,大部分的数据都被分到了WMT,也就是说WMT的测试集是更像WMT的训练集的。也就是说,当我们下游在测试时,预训练和测试集其实是有一个domain gap的。

4b579896bcbb2ca0ac4290e4e4ec6f90.png

上游任务和下游任务的目标函数也是不同的。

■ Objective Discrepancy

● NMT learns to translate a sentence from one language to another

● Seq2Seq pretraining learns to reconstruct the input sentence

上游任务主要是生成任务,下游任务主要是翻译任务。下面,我们通过对模型表现进行分析来展示目标函数的不同导致的影响。

●model uncertainty: compute the average probability at each time step 

● jointly pretraining decoder significantly improves model certainty after the first few time steps 

● jointly pretraining decoder leads to a improvement of certainties, suggesting that the pretrained decoder tends to induce the over-estimation issue of NMT model

047680f9cd12922fcc821312ac1857bd.png

上图展示了对average probability的计算,如果我们有了预训练decoder,模型也会更相信自己生成了什么。

我们做了两组实验:一组是让模型生成reference,一组是让模型生成错误的instructor。我们发现如果load了decoder,对模型也会出现over estimation的问题。

● Hallucination under Perturbation. 

● evaluate the model’s tendency of generating hallucination under noisy input 

● jointly pretraining decoder is less robust to perturbed inputs and produces more hallucinations

bca87fabfb1958b61aea5fb2270f7d8f.png

我们衡量了一下模型出现幻觉的比例,对模型进行扰动来看hallucination的变化。我们发现加入预训练decoder后,hallucination的现象是明显加重的,体现在BLEU的下降与hallucination次数增多。

● beam search problem

● jointly pretraining decoder suffers from more serious beam search degradation problem 

● larger beam size introduces more copying tokens than the other model variants.

cfef90897595ce1fbb8fa90fb016a8ea.png

另一个over estimation的后果就是beam search problem。当模型把beam search开大的时候,更容易出现性能下降。我们发现在使用decoder之后,模型性能的下降会更多。

Improving

接下来,我们提出了两种简单有效的方法来解决上述问题。

● In-domain pretraining 

■ continue the training of mBART on the in-domain monolingual data.

■mask 35% of the words in each sentence by random sampling a span length according to a Poisson distribution. 

● Input Adaptation in Finetuning. 

■ add noises (e.g., mask, delete,permute) to the source sentences during finetuning, and keep target sentences as original ones. 

■ we add noises to 10% of the words in each source sentence, and combine the noisy data with the clean data by the ratio of 1:9, which are used to finetune the pretraining model.

3d27534a898809737113171cbdc6a827.png

  实验结果如上图所示,

● In-domain pretraining可以显著的提升翻译质量

● Input adaptation在保证翻译质量的同时可以显著地增加模型鲁棒性

● 两种方法同时使用可以既提升翻译性能,又增加模型的鲁棒性。

下面,我们做了一系列分析来证明我们的方法可以用来解决上述问题。

● Narrowing Domain Gap. 

■ calculate the word accuracy of the translation outputs by the compare- mt. 

■ the improvements on low-frequency words are the major reason for the performance gains of in-domain pretraining 

■ confirm our hypothesis that in-domain pretraining can narrow the domain gap with

2f91eac853c6690c8b6e36b2b3f744b6.png

我们发现,在减小Domain Gap的过程中,我们的提升都来自low-frequency即尾部的提升,一定程度上我们减小了尾部的gap。

接下来,我们来看下我们的方法缓解Over-Estimation和Beam Search问题上的应用。

● Alleviating Over-Estimation 

■ our approach successfully alleviates the over-estimation issue of general pretraining in both the groundtruth and distractor scenarios

430a1f8586bb307cb050825fb6209d36.png

● Mitigating Beam Search Degradation. 

■ the input adaptation approach can noticeably reduce the performance decline when using a larger

75d296901c044489c45cdd5543aeb14e.png

Conclusion

● 我们发现了Seq2Seq pretraining一种针对机器翻译任务的序列到序列预训练,也是一把双刃剑:

■ 一方面,它帮助模型有更好的翻译性能

■ 另一方面,由于预训练与下游翻译任务的gap,domain discrepancy限制了模型的性能,objective discrepancy可能使得模型出现over estimation的问题。

● 我们针对上述问题提出了两种简单而有效的方法,in-domain pretraining 和input adaptation 有效缓解上述问题。

论文题目:

Understanding and Improving Sequence-to-Sequence Pretraining for Neural Machine Translation

论文链接:

https://arxiv.org/pdf/2203.08442.pdf

点击“阅读原文”,即可观看本场回放

整理:林  则

作者:王文轩

往期精彩文章推荐

1a11098b6a31190fa7d5932b5bc167bb.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了700多位海内外讲者,举办了逾300场活动,超260万人次观看。

f34c881e6248a2be075bb2ac994cba15.png

我知道你

在看

~

f1fa23a90a071d1ab714cc808a6cca9a.gif

点击 阅读原文 查看回放!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值