#今日论文推荐#​ACL 2022 | 面向对话状态追踪任务的回合级公平评测

#今日论文推荐#​ACL 2022 | 面向对话状态追踪任务的回合级公平评测

ACL 2022 的一篇文章围绕了 DST 的一个重要指标:联合精度(JGA)展开了讨论,本文指出了该指标(JGA)的苛刻性,很可能低估了 DST 模型的性能。并不适用于所有的测试场景,除了 JGA 外,在这项工作中还讨论了 DST 的其余各种评估度量(SA,AGA)及其缺点。为了解决现有的问题,作者提出了一种新的评价度量,即灵活目标精度(FGA)。FGA 是 JGA 的一个广义版本。但与 JGA 不同的是,它试图给局部正确的错误预测给予一个惩罚奖励,因为出现这种错误的根本原因很可能来自于更早轮次的错误。通过这样做,FGA 灵活地考虑了累积层面和回合层面预测的性能,并提供了比现有指标更好的洞察力。作者还表明,FGA 是一个更好的鉴别 DST 模型性能的鉴别器。

(1) JGA(联合精度)的定义:假设对话有 N 轮,存在轮次 t,t 以及 t 前面的轮次对话轮次全部预测正确,而 t 后没有对话或者 t+1 轮次的对话状态预测错误,由于对话状态是累积的,所以 t+1 后所累积的对话状态一般来说很难预测正确,则该段对话的联合精度为:t/N,如图,在这个例子中,对 B0t 的 6 个正确预测中有 2 个,这使得整个对话的 JGA 得分为 33.33%。(2)从以上结果来看,虽然联合目标精度是评价 DST 的方便指标,但它也有一定的局限性。这个问题的主要来源是真相 Bt 的累积性质。因此,一旦发生了错误的预测,就很难在随后的回合中得到正确的预测。例如,在图 1 中,第 2 轮的预测出现了错误,这影响了以后所有的预测。所以,如果模型错误预测了第一个回合,很可能 JGA 为零。因此,JGA 可以破坏 DST 模型的真正潜力,并提供一个被低估的性能。
此外,JGA 也没有考虑到轮次级别的性能。例如,在图 1 中,轮次 3 和轮次 5 是局部正确的,,因为 Bt 和 没有全部匹配。通常,期望是精确匹配度的上升也将反映在回合级匹配中。但我们观察到,有时精确匹配度的上升会减少回合级匹配度,这主要是由于注释的不一致。例如第二轮和第四轮中,系统都提到了一个一个槽的值,但前者采用了,后者没有采用,这样会让模型陷入困惑。因此,如果没有注释错误,使用联合目标精度评估 DST 效果很好,唯一的目的是提高评估累积对话状态的预测。否则,就需要包括回合级性能,以获得对 DST 模型的公平评价。

论文题目:Towards Fair Evaluation of Dialogue State Tracking by Flexible Incorporation of Turn-level Performances
详细解读:https://www.aminer.cn/research_report/6304c9ac7cb68b460f0a204dicon-default.png?t=M7J4https://www.aminer.cn/research_report/6304c9ac7cb68b460f0a204d
AMiner链接:https://www.aminer.cn/?f=cs

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值