神经机器翻译中的曝光偏差,幻觉翻译与跨域稳定性

本文分析了神经机器翻译中的曝光偏差如何导致幻觉翻译,通过实验验证了最小风险训练(MRT)可缓解这一问题,提高模型的跨域稳定性。曝光偏差在跨域翻译中造成更严重问题,与束搜索悖论有关。
摘要由CSDN通过智能技术生成

⬆⬆⬆ 点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

摘要:神经机器翻译中的标准训练策略存在曝光偏差问题。即使已有研究提出缓解曝光偏差方法,但是曝光偏差造成的实际影响仍然存在争议。

本文,我们将曝光偏差与神经机器翻译中另一个广泛讨论的问题,即跨域下产生幻觉翻译联系起来。通过三个数据集多个测试域的实验,我们证实曝光偏差是导致幻觉翻译的原因之一。使用最小风险训练模型,避免暴露偏差,即可减轻幻觉翻译。我们的分析实验解释了为什么曝光偏差在跨域的场景下会造成更严重的问题,并且证实了曝光偏差与束搜索矛盾问题(即增加搜索束宽性能恶化)之间的联系。

本文的实验发现为减少暴露偏差的相关方法提供了一个新的佐证:即使它们不能提高域内测试集的性能,它们仍旧可以提高模型的跨域稳定性。

王朝君,爱丁堡大学,爱丁堡大学信息学院科研助理,导师为Alexandra Birch。主要研究方向神经机器翻译,已在相关领域的国际顶级会议ACL发表论文。

一、幻觉翻译和曝光偏差的概念

本次分享的内容主要是一篇分析文章,这篇文章主要联系了目前领域中的几个理论问题和实际问题,比如:曝光偏差(Exposure Bias),幻觉翻译(Hallucination),以及神经机器翻译的跨域稳定性。此外还提出了一种新的可视化的方法,针对模型的曝光偏差。

首先,对幻觉翻译做一个说明。幻觉翻译指的是模型产生的翻译和原文在内容层面是不相关的,但是没有语法方面的错误。举一个例子:给模型输入一个德语句子,原意为:她发现了我们。但是模型会把它翻译成:如果他们的症状和你一样。之前的研究和本次的工作都发现这样的幻觉翻译在模型的跨域翻译情景下很常见。跨域稳定性的实际意义在于当用户使用的目标领域未知或者在低资源情况下,没有充足的目标领域并行语料。这篇文章从幻觉翻译的角度探究模型的跨域稳定性。

当前的端到端神经机器翻译模型中有一个大家普遍认知的理论缺陷,它就是曝光偏差。曝光偏差指的是模型训练与预测过程之间的不匹配。在训练时每一个词输入都来自真实样本,但是在推断时当前输入用的却是上一个词的输出,所以这样的不匹配大家称

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值