论文阅读笔记《DEAM: Dialogue Coherence Evaluation using AMR-based SemanticManipulations》

基于amr语义操作的对话连贯评价

Abstract

自动评估指标对于开放域对话系统的快速发展至关重要,因为它们有助于模型之间的超参数调优和比较。尽管最近提出的可训练的对话级指标显示出令人鼓舞的结果,但指标的质量在很大程度上依赖于培训数据的质量。之前的研究主要依靠启发式文本层面的操作(例如,话语洗牌),从连贯的对话(积极的例子)中引导不连贯的对话(消极的例子)。这种方法不足以恰当地反映高级对话模型与人类之间的互动中出现的不连贯。为了解决这个问题,我们提出了一种对话一致性评估指标——DEAM,它依赖于抽象意义表示(AMR)来应用语义级操作来生成非相干(负)数据。AMRs自然促进了各种类型的不相干源的注入,如在语义级别上的协参不一致、不相关、矛盾和减少参与,从而产生更自然的不相干样本。我们的实验表明,在几个对话数据集上,与基准方法相比,DEAM 1实现了与人类判断更高的相关性。我们还表明,DEAM可以区分由基准操作生成的连贯和不连贯对话,而这些基准模型不能检测由DEAM生成的不连贯示例。我们的结果证明了基于amr的语义操作在自然负例生成中的潜力。

1 Introduction

尽管大型预训练语言模型(Radford等人,2019;Lewis等人,2020)对于对话响应生成具有有效性(Zhang等人,2020;Adiwardana等人,2020年;Ghazarian等人,2021a),但这些模型在模仿人与人的对话并保持会话水平的连贯性方面仍然具有挑战性。为了更好地评估这些模型,最近的研究提出了可训练的自动评估指标来基准和比较对话模型的性能(Wu等人,2020;Zhang等人,2021)。大多数可训练的自动评估指标专注于回合级交互,学习评估一个用户-系统话语对的质量(Tao等人,2018;黄等,2020;Ghazarian等人,2020年)。然而,这些指标不能恰当地模拟整个对话流(Y eh等人,2021年),因此不足以进行对话级别的评估。

在这项工作中,我们专注于对话连贯性的自动评价,这一研究还不够深入。连贯性是一个会话级别的度量标准,它衡量会话中的话语如何统一,从而产生一致的互动(Byron and Stent, 1998;Mesgar等人,2020年)。以前的工作追求不同的模型,例如基于图形(V akulenko等人,2018;Zhang等人,2021)或基于文本(Mesgar等人,2020)的方法,以开发自动可训练的一致性评估指标。这些模型采用对比学习方法,建立二元分类器来区分积极的、连贯的例子和消极的、不连贯的对话。这些分类器通常是在以人与人对话为正例并应用文本级别的启发式操作来生成不连贯对话的数据集上进行训练的。文本层面的操作直接改变了对话的结构,比如打乱话语的顺序,替换外部对话中的一些随机话语(V akulenko et al, 2018;Mesgar等人,2020年;Zhang et al, 2021),如图1的第三个对话所示。

Figure 1:人与人(第一次对话)和人与聊天机器人(第二次对话)对话与操作的例子分别来自基线(用黄色表示)和我们提出的扰动(用紫色表示)。与人与聊天机器人的交互类似,与基线操作相比,我们的操作会导致更微妙的不连贯对话。

我们认为,这种文本级别的操作过于简单,无法充分代表当前最先进的对话系统中出现的更细微的连贯性错误。例如,图1中的第二个对话显示了来自美联储数据集(Mehri和Eskénazi, 2020)的人机系统交互,其中的不连贯比文本级别操作产生的不连贯要微妙得多。

在这篇论文中,我们研究了产生负样本的操作技术,这些负样本代表了在最先进的对话系统中更可能发生的连贯性错误。为此,我们提出了DEAM模型,该模型使用抽象意义表示(Abstract Meaning Representation, AMR)应用语义级操作来生成反例。amr的目的是通过抽象掉不相关的句法特征来捕捉句子的意思。因此,在AMR中注入有目标和有控制的扰动是很容易的,并且可以在相应的句子中引入语义不连贯。

DEAM首先将对话解析为语义AMR表示,然后将通常在当前最先进的模型中观察到的不连贯类型注入到AMR图中。它通过使用可控生成模型将被操纵的amr转换回对话作为负例来结束这一过程。然后在创建的数据集上训练一个微调的RoBERTa模型,以区分连贯和非连贯对话作为评价指标。

我们的主要贡献如下:

•我们提出了DEAM,这是一种评估指标,它利用AMR图并在语义层面注入不连贯源,以生成用于训练的不连贯对话。

•我们提出了四种操作策略来表示当前对话模型的四种常见的不连贯来源:矛盾、协指不一致、不相关和减少接触。

•我们的经验表明,根据我们提出的操作训练的模型在与人类判断的相关性方面显著优于强基线。此外,DEAM能够区分使用文本级操作的基线生成的积极示例和消极示例,反之则不然——文本级操作训练的分类器不能检测到由DEAM生成的消极示例。这证明了基于语义级amr操作的有效性。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值