(一)RelevanceofUnsupervised MetricsinTask-Oriented Dialogue forEvaluating NaturalLanguageGeneration

摘要

像BLEU这样的自动化度量在机器翻译文献中被广泛使用。它们最近也被对话界用来评估对话反应的产生。然而,以往关于对话反应生成的研究表明,在非任务型对话中,这些指标与人的判断没有很强的相关性设置.任务-定向的对话反应在较窄的领域内表现出较低的多样性。因此,我们有理由认为,在以任务为导向的环境中,这些自动化度量与人类的判断有很好的关联,其中生成任务包括将对话行为翻译成句子。我们进行了实证研究,以确认这是否是我们的案子研究结果表明,与在任务导向环境中观察到的情况相比,这些自动化度量与任务导向环境中的人类判断具有更强的相关性。我们还观察到,对于提供多个基本事实参考句的数据集,这些指标的相关性甚至更好。此外,我们还表明,目前可用于面向任务语言生成的一些语料库可以用简单的模型来解决,并提倡使用更具挑战性的数据集。

1.介绍

基于规则和基于模板的对话响应生成系统已经存在很长时间了(Axelrod,2000;Elhadad,1992)。即使在今天,生产中部署的许多面向任务的对话系统都是基于规则和模板的-基于这些系统不能随着复杂度的增加而扩展,维护模板数量的增加变得很麻烦。在过去,Oh和Rudnicky(2000)提出了一种基于语料库的面向任务的自然语言生成方法系统。其他使用基于树的模型和强化学习提出了统计方法(Walker等人,2007;Rieser和Lemon,2009),基于深度学习的方法(Wen等人,2015b;Sharma等人,2017;Lowe等人,2015;Serban等人,2016)在产生对话反应方面显示出了有希望的结果。

机器生成语言的自动评估是自然语言处理界面临的一个挑战和重要问题。目前最广泛使用的自动化度量是基于单词重叠的度量,如BLEU(Papineni et al.,2002)、METEOR(Banerjee and Lavie,2005),这些度量最初是针对机器学习提出的翻译。虽然这些指标与机器翻译任务中的人工评估有很好的相关性,先前的研究表明,在非任务型对话中并非如此(Liu等人,2016)。这可以解释为,对于相同的语境(如用户话语),对话中的反应具有更多的多样性。单词重叠度量无法捕捉语义,因此,即使对于适当的回答,也可能导致较差的分数。在这种情况下,人的评价是最可靠的衡量标准。然而,人类的判断是昂贵的获得和不容易随时获得。

任务导向的对话系统被应用于较窄的领域(例如预订餐厅),而在任务导向的环境中,反应没有那么多的多样性。另一个重要的区别是,在非面向任务的环境中,响应生成通常是端到端的,这意味着模型将最后一个用户的话语和潜在的对话历史作为输入,并输出下一个系统答案。另一方面,在以任务为导向的语境中,语言生成任务往往被看作是从句子的抽象表达到句子本身的翻译过程。因此,将生成的句子与参考句子进行比较的自动化度量可能更合适,并且与人类的判断相关。在本文中,我们:

  • 在两个流行的面向任务的对话数据集上研究人类判断和几个无监督的自动化度量之间的相关性。
  • 介绍现有模型的变体,并评估它们在这些度量上的性能

我们发现,在任务导向的环境中,自动化度量与人类判断的相关性比在非任务导向的环境中所观察到的更强。我们还观察到,在存在多个参照句的情况下,这些指标的相关性更大。

2.相关工作

Liu等人(2016)进行了一项实证研究,以评估人类得分与几个自动单词重叠度量以及基于嵌入的对话响应度量之间的相关性一代人。他们观察到这些指标虽然在文献中广泛使用,在非任务型对话的自然语言环境中,与人的判断只有微弱的相关性

在监督NLG评价指标方面,Lowe等(2017)提出了ADEM模型,该模型以监督的方式训练一个递阶递归神经网络工作,以预测人的类核。这一学习成绩与人类判断的关联性优于其他任何自动化度量。然而,这种方法的缺点是对昂贵的人类评级的要求。

Li et al.(2016)提议使用强化学习来训练端到端对话系统。他们模拟两个代理之间的对话,并使用带有奖励函数的策略梯度算法来评估对话系统生成的响应的特定属性。

在对抗环境中,Kannan和Vinyals(2016)训练了一个递归神经网络鉴别器,以区分人类产生的反应和模型产生的反应。然而,对这种方法的可行性和标准化的难易程度的广泛分析尚待进行。Li et al.(2017)除了对抗性训练对话反应模型外,还提出了一个独立的对抗性评估指标Discountuc和一个称为评估者信度误差的模型信度度量。这些方法的缺点是依赖于模型。对抗性方法在任务型对话系统中可能很有前途,但还需要对其进行更多的研究。

到目前为止所描述的大部分工作都是在非任务导向的对话环境中完成的,因为之前的工作表明,自动匹配的度量与人类在该环境中的相关性不好。这些结论是否也适用于以任务为导向的环境,目前还没有任何实证验证。任务导向环境中的研究主要使用了自动度量,如BLEU和人类评估(Wener等人,2015b;Sharma等人,2017;Duˇsek和Jurciek,2016)。

3.度量标准

本节描述了一组与人类评估相关的自动度量。我们首先考虑单词重叠度量,然后考虑基于嵌入的度量。接下来,当提供多个参考文献时,我们逐一计算预测结果与所有参考文献的相似度,然后选择最大值。然后我们平均整个语料库的分数。

3.1基于词重叠的度量

3.1.1BLEU

BLEU度量(Papineni et al.,2002)比较了候选话语和参考话语之间的关系。BLEU分数在语料库级别计算,并依赖于以下修正精度:
在这里插入图片描述
其中{Candidates}是由模型生成的候选答案,Ctclip是n-gram的剪裁计数,n-gram是候选答案和参考答案共用n-gram的次数,n-gram是参考答案中出现n-gram的最大次数剪裁的次数。BLEU-N评分定义为:
在这里插入图片描述
其中N是then grams的最大长度(在本文中,我们计算BLEU-1到BLEU-4),ω是通常是均匀的权重,BP是简洁的惩罚。在本文中,我们报告了BLEU分数在语料库水平,但我们也计算了这个分数在句子水平,以分析其与人类评价的相关性。

3.1.2 METEOR

流星度量(Banerjee和Lavie,2005)被认为是一种在句子层面上更好地与人类评价相关联的度量。为了计算METEOR得分,首先,通过将候选句子中的每个单格映射到参考句子中的0或1个单格来创建候选句子和参考句子之间的对齐。对齐不仅基于精确匹配,还基于词干、同义词和释义匹配。基于此对齐,计算单图精度和召回率,得分为:
在这里插入图片描述
其中F平均值是精确性和召回之间的调和平均值,召回权重是精确性权重的9倍,p是惩罚。

3.1.3 ROUGE

ROUGE(Lin,2004)是一组最初用于摘要的度量标准。我们计算了Rouge-L,它是一种基于候选语和参考语之间最长公共子序列(LCS)的F-测度。

3.2基于嵌入的度量

我们考虑另一组度量,它计算预测句和参考句的嵌入之间的余弦相似性,而不是依赖于单词重叠。

3.2.1Skip-Thought

Skip思维模型(Kiros等人,2015)以无监督的方式进行培训,并使用重新当前网络将给定句子编码到嵌入中,然后解码以预测前和后一句。该模型是在BookCorpusDataSet上进行的培训(Zhu等人,2015)。编码器所产生的嵌入在语义相关任务上具有良好的性能。我们使用作者1提供的预雨前跳过思想en编码器。我们还计算了其他基于嵌入的方法,这些方法在最近文献(Liu等人,2016)中用作非任务导向对话的人类相关性的评估指标(Liu等人,2016年),见第3.2.2、3.2.3和3.2.4节。

3.2.2Embedding average

此度量通过平均组成此句子的单词的嵌入来计算句子级嵌入:

在这个等式中,向量ew是候选句子C中单词的嵌入。

3.2.3Vector extrema

Vector extrema(Forgues et al.,2014)通过对嵌入的每个维度取组成句子的单词嵌入的最极值来计算句子级嵌入:
在这里插入图片描述
在这个方程中,dis是嵌入维数的索引,C是候选句子。

3.2.4Greedy matching

贪婪匹配不计算句子,而是直接计算候选C和参考r之间的相似度得分(Rus和Lintean,2012)。相似性分数的计算如下:

在这里插入图片描述
换言之,候选句中的每个单词都根据其嵌入的余弦相似性贪婪地与参考句中的一个单词匹配。分数是这些相似度与候选句子中单词数量的平均值。相同的分数是通过颠倒候选句和参考句的角色来计算的,两个分数的平均值给出最终的相似性分数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值