bleurt:学习文本生成的强大指标
作者:Thibault Sellam, Dipanjan Das and Ankur Parikh
摘要
文本在过去几年中取得了重大进展。然而评估指标落后,作为最受欢迎的选择(例如,Bleu 和 Rouge)可能与人类判断不一样。我们提出了基于 BERT 的学习评估度量的 BLEurt,可以通过几千个可能有偏见的训练示例来模拟人类判断。我们方法的一个关键方面是一种新的预训练方案,用于使用数百万的合成例来帮助模型概括。 Bleurt 在 WMT 指标共享任务和 Webnlg 竞赛数据集的最后三年提供最先进的结果。与 Vanilla Bert 的方法相比,即使训练数据稀缺和分配也会产生卓越的结果。
介绍
在过去几年中,自然文本生成(NLG)的研究取得了重大进展,主要是神经编码器-解码器(Sutskever等,2014; Bahdanau等,2015),这可以解决广泛的阵列任务包括翻译(Koehn,2009),摘要(Mani,1999; Chopra等,2016),StructuredData到文本生成(McKeown,1992; Kukich,1983; Wisman等,2017)对话(史密斯和河马,1994年; Vinyals和Le,2015)和图像标题(方埃拉,2015)。然而,进展越来越多地受到现有度量的缺点(Wisman等,2017年; Ma等,2019; Tian等,2019)。
人类评估往往是系统质量的最佳指标。然而,设计人群采购实验是一种昂贵且高延迟的过程,其不容易符合日常模型开发管道。因此,NLG研究人员通常使用自动评估指标,这为质量提供了可接受的代理,并且非常便宜地计算。本文调查句子级,参考数下计量,描述候选句子与参考相似的程度。相似性的确切定义可以从字符串重叠到逻辑征兆。第一代度量依赖于手工制定的规则来测量句子之间的表面相似性。为了说明,Bleu(Papineni等,2002)和Rouge(Lin,2004),两个流行的指标,依赖于n-gram重叠。因为这些指标仅对词汇变化敏感,所以它们不能适当地奖励给定参考的语义或句法变化。因此,它们已经反复显示与人类判断不良,特别是当所有系统相比具有相似的准确性水平(Liu等,2016; Novikova等,2017; Chaganty等,2018) 。
NLG研究人员越来越多地解决了这些问题,通过在其指标中注入学习组件来解决这些问题。为了说明,考虑WMT指标共享任务,将翻译指标与其模仿人类评估的能力进行比较的年度基准。竞争的最后两年主要由神经网络的方法,鲁木,yisi和Esim(Ma等,2018,2019)主导。目前的方法在很大程度上落入两类。完全学习的指标,如啤酒,诡计和ESIM的培训结束于结束,并且通常依赖于手工制作的功能和/或学习嵌入。相反,混合指标,例如yisi和Bertscore组合训练元素,例如上下文嵌入,具有手写逻辑,例如,作为令牌对齐规则。
FirstCatevyTypolyOfficeSgreat表情:如果提供了一组人的人类评分数据,则指标可能充分利用它并紧紧地配合分布。 Furarxiv:2004.04696V5 [CS.CL] 5月21日2020 5月21日,可以调整学习的指标,以测量特定的任务特性,例如流利,忠诚,语法或风格。另一方面,混合指标提供了鲁棒性。当没有培训数据几乎没有培训数据时,它们可能会提供更好的结果,并且他们不依赖于训练和测试数据相同分布的假设。实际上,由于域漂移,IID假设在NLG评估中尤其问题,这是度量文献的主要目标,而且由于质量漂移:NLG系统往往会随着时间的推移而变得越来越好,因此培训了培训的模型2015年的评级数据可能无法区分2019年的顶级执行系统,特别是对于较新的研究任务。理想的学习公制将能够充分利用可用的评级数据进行培训,并且对分布漂移具有稳健,即,它应该能够推断。我们的洞察力是,在细小Tuningitonhumanratings之前,可以通过预先培训大量合成数据的完全学习的公制来结合表达性和鲁棒性。 Tothisend,我们介绍了基于BERT的BLEurt,1A文本生成度量(Devlin等,2019)。 BLEurt的一个关键成分是一种新的预训练计划,它使用维基百科句子随机扰动增强了一套不同的词汇和语义监督信号。为了展示我们的方法,我们培训BLEurt英语,并根据不同的概括制度评估它。我们首先验证它为最近几年的WMT指标共享任务(2017到2019,英语语言对)提供最先进的结果。然后,我们强调它对基于WMT 2017的合成基准测试其应对高质量漂移的能力。最后,我们表明它可以轻松适应不同的域,其中包含数据到文本数据集的三个任务,WebnLG 2017(gardent等等。,2017)。消融表明,我们的合成预押方案在IID设置中提高了性能,并且在培训数据稀缺,歪斜或域外域时确保鲁棒性至关重要。代码和预先训练的模型在线提供2。