#今日论文推荐#ACL 2022 | 面向对话状态追踪任务的回合级公平评测

wwwsxn

已于 2022-08-23 22:04:53 修改

阅读量182

点赞数

分类专栏：深度学习文章标签：深度学习计算机视觉人工智能

于 2022-08-23 22:04:47 首次发布

原文链接：https://www.aminer.cn/research_report/6304c9ac7cb68b460f0a204d

版权

深度学习专栏收录该内容

716 篇文章 30 订阅

订阅专栏

#今日论文推荐#ACL 2022 | 面向对话状态追踪任务的回合级公平评测

ACL 2022 的一篇文章围绕了 DST 的一个重要指标：联合精度（JGA）展开了讨论，本文指出了该指标（JGA）的苛刻性，很可能低估了 DST 模型的性能。并不适用于所有的测试场景，除了 JGA 外，在这项工作中还讨论了 DST 的其余各种评估度量（SA，AGA）及其缺点。为了解决现有的问题，作者提出了一种新的评价度量，即灵活目标精度（FGA）。FGA 是 JGA 的一个广义版本。但与 JGA 不同的是，它试图给局部正确的错误预测给予一个惩罚奖励，因为出现这种错误的根本原因很可能来自于更早轮次的错误。通过这样做，FGA 灵活地考虑了累积层面和回合层面预测的性能，并提供了比现有指标更好的洞察力。作者还表明，FGA 是一个更好的鉴别 DST 模型性能的鉴别器。

（1） JGA（联合精度）的定义：假设对话有 N 轮，存在轮次 t，t 以及 t 前面的轮次对话轮次全部预测正确，而 t 后没有对话或者 t+1 轮次的对话状态预测错误，由于对话状态是累积的，所以 t+1 后所累积的对话状态一般来说很难预测正确，则该段对话的联合精度为：t/N，如图，在这个例子中，对 B0t 的 6 个正确预测中有 2 个，这使得整个对话的 JGA 得分为 33.33%。（2）从以上结果来看，虽然联合目标精度是评价 DST 的方便指标，但它也有一定的局限性。这个问题的主要来源是真相 Bt 的累积性质。因此，一旦发生了错误的预测，就很难在随后的回合中得到正确的预测。例如，在图 1 中，第 2 轮的预测出现了错误，这影响了以后所有的预测。所以，如果模型错误预测了第一个回合，很可能 JGA 为零。因此，JGA 可以破坏 DST 模型的真正潜力，并提供一个被低估的性能。
此外，JGA 也没有考虑到轮次级别的性能。例如，在图 1 中，轮次 3 和轮次 5 是局部正确的，，因为 Bt 和没有全部匹配。通常，期望是精确匹配度的上升也将反映在回合级匹配中。但我们观察到，有时精确匹配度的上升会减少回合级匹配度，这主要是由于注释的不一致。例如第二轮和第四轮中，系统都提到了一个一个槽的值，但前者采用了，后者没有采用，这样会让模型陷入困惑。因此，如果没有注释错误，使用联合目标精度评估 DST 效果很好，唯一的目的是提高评估累积对话状态的预测。否则，就需要包括回合级性能，以获得对 DST 模型的公平评价。

论文题目：Towards Fair Evaluation of Dialogue State Tracking by Flexible Incorporation of Turn-level Performances
详细解读：https://www.aminer.cn/research_report/6304c9ac7cb68b460f0a204dhttps://www.aminer.cn/research_report/6304c9ac7cb68b460f0a204d
AMiner链接：https://www.aminer.cn/?f=cs