How to Evaluate Single-Round Dialogues LikeHumans An Information-Oriented Metric

文章提出了一个面向信息的对话评价框架(IDEF),通过信息提取和匹配模块评估对话质量。该框架实现了一个名为LIEM的基于学习的度量,它在Twitter和微博数据集上表现出了优于现有自动评估方法的有效性,尤其是在衡量对话的信息含量和相关性方面。该方法无需人类评估注释,可跨语言应用,并且比传统指标更符合人类主观判断。
摘要由CSDN通过智能技术生成

摘要
开发对话响应生成系统是自然语言处理中的一个重要课题,但在实现具有类人特性的自动生成对话之前,仍有许多障碍需要克服。一个好的评估方法将有助于缩小机器和人类在对话生成方面的差距。不幸的是,现有的自动评估方法有失偏颇,与人类对反应质量的判断相关性很差。这种方法无法评估对话回应生成系统是否能够产生高质量、知识相关和信息丰富的对话。
为了应对这一挑战,我们设计了一个面向信息的框架来模拟人类的主观评价。使用这个框架,我们实现了一个基于学习的度量来评估对话的质量。实验验证证明了我们提出的度量在Twitter数据集(英文)和微博数据集(中文)上的对话选择和模型评估中的有效性。此外,与现有的对话评估方法相比,该度量更符合人类的主观判断。

引言
构建能够与人类进行自然和有意义对话的智能系统是人工智能的核心目标[1]。与具有监督标签(如任务完成[2]、[3])的面向任务的聊天机器人的情况不同,这种非面向任务的对话响应生成系统的自动评估是该领域的一个重要且开放的问题。使用大规模语料库进行端到端学习是允许系统(如聊天机器人)学习如何在帖子和回复之间进行映射的最常见方法[4],[5]。然而,与人类对话相比,现有的自动对话生成系统产生的当前响应通常是无聊和荒谬[6]。简单地说,这些回应只是一连串的闲聊。虽然这种闲言碎语也存在于人类对话中,但在后者中所占比例并不很大。在现实生活中,人与人之间的对话往往需要交换信息、知识和观点。
从这个角度来看,要建立一个类似人类的对话响应生成系统,还有很长的路要走。
在研究中,一个好的评估方法将有助于确定系统各部分的价值。在行业中,一种有效的评估方法可以引导对话系统根据其产生的响应质量展示不同的后续反应,从而改善用户体验。用于评估对话响应生成模型的现有度量大多源自机器翻译;一个例子是BLEU[7]。这些度量假设机器生成的响应与地面真实响应有显著的单词重叠。然而,在公开的实地对话中,回应往往是多种多样的。目前,使响应多样化是重要的优化目标之一,CVAE对话模型就是例证[8]。因此,很难在对话响应生成系统中定义基本事实响应。此外,人类相关性分析[9]表明,这些指标预测的得分与人类判断之间的相关性较弱。其他度量,例如distinct-N[6],试图计算响应中不同的unigram和bigram的数量,但无法测量对话响应生成系统是否能够生成高质量、知识相关和信息丰富的对话。在最近的研究中,已经提出了基于学习的评估方法,如ADEM[1]和RUBER[10]。然而,这些模型的训练依赖于高质量的对话或主观评价注释,这使得这些方法难以应用于不同的对话环境。此外,最新研究[11]表明,ADEM等神经网络模型可以通过简单地颠倒输入单词的顺序来攻击。众所周知,缺乏良好的对话反应生成系统评估方法将进一步阻碍这一领域的发展。因此,迫切需要建立一种新的评估方法来自动评估对话响应生成系统。
在本文中,我们试图将人类主观评价的过程抽象为一个称为面向信息的对话评价框架(IDEF)的算法框架。1观察对话中的主要信息分析这些信息的相关性通常是人类主观评价的两个阶段。算法框架将这两个阶段抽象为两个模块:信息提取和信息匹配。我们将第一个模块设计为基于注意力机制的三重提取算法[12]。另一个模块设计为基于多个三元组的匹配算法。完整模型将对话文本作为输入并输出评估分数,如表I所示。我们将此模型称为基于学习的信息评估度量(LIEM)。
实验证明了我们提出的方法在对话选择、模型评估和受试者在标准英语数据集和中文数据集上的评估中的有效性。
本文的主要贡献包括:我们提出了一种基于学习的信息评估方法,该方法不需要人类评估注释,可以在不依赖标准答案的情况下有效地确定对话的质量。
我们是第一个在对话中使用三元组表示信息的人。我们设计了一种新的信息提取方法来提取三元组,该方法在OpenIE基准测试中优于现有方法。
我们的方法可以评估不同语言的对话,它显示出比现有技术更好的泛化能力。
本文的其余部分由以下部分组成。第二节简要概述了对话生成系统的各种评估方法,包括主观评估方法和几种常用的自动评估方法。第三节描述了建议的方法。
第四节介绍了实验设计和实验结果,包括对话选择、模型评估和人类相关性比较。最后,第五节总结了本文,并对未来的研究提出了几点建议。
二、相关工作
主观评价是评价对话反应生成模型的最早方法。它通常是指人们从逻辑性、连贯性等角度对聊天机器人生成的响应的主观判断。最具代表性的评估方法是图灵测试[13]。到目前为止,人类主观评价仍然是对话生成模型中常用的度量标准。Shang等人[14]使用人类注释来测试不同模型的性能。对五名受试者随机表示不同模型的反应。五名参与者判断帖子的回复是否恰当、自然,并给其打分。Shao等人[15]提出了一种度量来验证对话生成模型的性能,称为5尺度并排人类评估。他们的测试集是200个上下文无关提示的集合。每个受试者对每一个快速反应都给予5级评分,包括优秀、良好、可接受、平庸和较差。这种5个尺度的并排人类评估可以反映人类是否接受模型产生的响应。虽然手动评估是准确的,但它需要时间和精力。
提出一个自动评估指标对于对话生成的研究至关重要,因为它允许在没有大量人类参与的情况下快速测试新模型。但是,尽管基于深度学习的技术等各种技术推动了聊天机器人的进步[16],对话生成的自动评估仍然是一个开放的问题[14]。现有的单轮对话自动评估方法有四种主要类型。第一类是生成模型本身的评估方法,例如单词困惑[17]。
第二类是面向参考句的评估方法,它有两大类,包括基于词串的方法和基于词嵌入的方法。第三种类型评估生成的响应本身的一些特性,如distinct-N[6]。最后一种类型基于对话本身。他们通常从现有的人类评价注释[1]或高质量对话[10]中学习,以建模对话属性和对话质量之间的关系。
单词困惑是评估语言模型的有用方法[17]。Serban等人[18]首先使用单词困惑来评估无监督对话模型。它是基于生成对话生成模型的响应的概率来计算的。单词困惑度越低,表示模型具有更好的预测性能。Hashimoto等人提出了HUSE模型[19]。它结合单词困惑和人工评估来训练用于评估对话系统的分类器,该分类器可以同时评估模型的多样性和质量。
已经提出了一些与模型无关的度量来评估对话模型。Ritter等人[20]使用统计机器翻译(SMT)模型生成对话响应,该模型使用BLEU评分来衡量其有效性。BLEU最初是一种用于自动评估机器翻译方法的方法[7]。它计算候选句子和参考句子之间共现单词的频率,以评估文本的质量。ROUGE[21]和METEOR[22]是类似于BLEU的基于字符串的评估模型。BLEU计算匹配精度,而ROUGE主要评估匹配召回。METEOR通过F-Measure进行评估,并引入同义词匹配以提高评估的性能。实验表明,基于词嵌入的评价方法,嵌入平均值(Average)、嵌入极值(Extreme)和嵌入贪婪(Greedy)等与人类判断的相关性高于BLEU[9]。Wu等人[23]使用基于嵌入的度量来评估他们提出的对话生成模型。嵌入贪婪可以通过计算最相似单词的平均余弦相似度来衡量两个句子词汇的相似度[24]。嵌入平均是一种通过对短语组成部分的向量表示进行平均来计算短语含义的方法[25]。
嵌入极值在单词向量的每个维度中保持最高绝对值,以计算句子之间的余弦相似度[26]。它还可以测量两个句子中特殊单词的相似性。Gupta等人扩展了依赖于单个参考响应的评估方法,通过提供多个参考响应来提高性能[27]。实验表明,多重参考响应可以提高这些方法与人类主观评估的相关性。
多样性程度(distinct-N)[6]是生成响应本身最具代表性的评估方法。
Distinct-N尝试通过计算基于词汇表生成的响应中不同的单词和双词的数量来评估特定句子。词汇量大的句子往往信息量大,这意味着对话系统不太可能产生安全的回答
使用人工标注的数据构建对话评估模型是该领域的一个热门话题。对话质量自动推导的最早实现是PARADISE[28]对话评估框架。它使用回归分析得出用户满意度与对话系统的多个属性之间的关系,如对话持续时间。Moller等人[29]将人机交互的质量正式划分为服务质量(QoS)和体验质量(QoE),其中QoS描述客观指标,而QoE指用户满意度,例如会话的可用性和可接受性。Ultes等人。
[30]使用混合HMM来实现交互质量的预测。Lowe等人提出了评估模型ADEM[1],该模型使用RNN作为会话的编码器,使用人工评估分数作为标签来训练对话分数预测模型。这些模型的局限性之一是依赖主观评价。RUBER模型[10]通过高质量对话直接训练无监督分类模型,并结合传统的基于参考句子的方法进行自动对话评估。
在上述四种类型的评估方法中,单词困惑度不是基于每个回答计算的,只能应用于语言模型。基于词串和基于词嵌入的度量所表示的方法需要依赖于参考句子。多样性程度方法只评估对话的词汇,不足以衡量对话的完整质量。现有的基于学习的方法依赖于高质量的人类注释或会话语料库,这很难推广到各种环境中的对话评估。因此,我们提出了一种新的对话评估方法。它使用信息三元组用来衡量对话的信息内容和相关性。这种评估逻辑类似于人类评估。
三、 基于学习的信息评估度量
在一个涉及人类对对话进行主观评估的实验中,评估者经常观察对话中的主要信息点,并用两句话分析其相关性。
同时,信息丰富且相关的响应往往是用户所期望的。受这种主观评价过程的启发,我们设计了一个面向信息的对话评价框架,如图1所示。对话文本首先通过信息提取模块以提取主要内容。由于三元组是构建计算机系统知识库的常见结构,因此我们可以将提取的信息表示为三元组。接下来,这些三元组以特征向量的形式输入到信息匹配模块中,并输出它们的匹配分数。
基于该框架,我们实现了基于学习的信息评估度量。在该模型中,第一个模块被设计为基于双向LSTM和多头自关注网络的三重提取算法[12]。该算法可以提取每个句子中存在的三重信息。
第二个模块是匹配算法,通过贪婪算法[24]和惩罚机制合理评估两个三重序列的相关性。通过这种方法获得的高分对话将具有信息性和高度相关性。
A、 信息三元组提取信息三元组包含高级语义信息,在开放信息提取中,这些信息通常从句子中提取,以建立知识库。现有的开放信息提取方法包括几种常用的方法,如TextRunner[31]、WOE[32]和ReVerb[33]。TextRunner是最具代表性的三重提取方法之一,它使用动词来链接两个实体并提取它们之间的关系。
WOE使用维基百科作为提取实体关系类型的目标。ReVerb系统使用句法和词汇信息来约束提取过程。在开放信息提取的最新研究中,基于监督学习的模型优于先前基于规则或半监督的模型。
学习最新的开放信息提取方法RNN-OIE(基于RNN的开放信息抽取模型)[34],我们设计了一种基于学习的开放信息提取模型,称为注意力OIE。我们模型的总体架构如图2所示。注意力OIE模型包括作为输入句子编码器的双向LSTM网络和用于提取每个单词的BIO(B-begin,I-inside,O-outside)标签[35],[36]的多头自我注意力网络[12]。
这些标签将被用作构造句子三元组的推理基础。


也有代码,可以看看,思路有意思的。
虽然现在gptchat很牛逼,但国内没有类似的吧还。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

binqiang2wang

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>