对话系统常用评价指标
当前对话系统之所以还没有取得突破性的进展,很大程度上是因为没有一个可以准确表示回答效果好坏的评价标准。对话系统中大都使用机器翻译、摘要生成领域提出来的评价指标,但是很明显对话系统的场景和需求与他们是存在差别的,这也是当前模型效果不是很好的原因之一。从对话系统不同的层次角度来评价对话系统的效果时,每个层面会有不同的关注点,如下图所示:
从上图可以看出,黄色标识人类的主观角度,而蓝色表示系统的一些客观评价指标,可以用来衡量主观需求。对于某一轮对话而言,可以使用响应的适当性、流畅度、相关性;对于多轮对话而言,我们更关注流畅性、对话深度、多样性、一致连贯性等指标;而对于整个对话系统,我们则希望他可以涵盖更多的话题、回复真实可信等等。这些都是我们想要对话系统所拥有的能力,但是往往在一个具体的任务中我们只能关注某一项或者几项指标,这里我们主要针对开放域生成式对话模型的评价指标进行总结。
首先感谢@徐阿衡回答的了我的这个问题:现在基于深度学习的对话系统常用的评价指标有哪些,分别有什么优缺点和适用范围?,让我对当前对话系统的评价指标有了一个大致的认识,这里主要关注于其提到的第二点也就是词重叠评价指标(BLEU、ROUGE、METEOR)和词向量评价指标(Greedy matching、Embedding Average、Vector Extrema),还有perplexity困惑度,会扩展的讲一下每种指标的细节。这部分内容可以参考论文“How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation”,该论文详细论述了非监督生成式对话系统的各种评价指标。
词重叠评价指标
首先来看词重叠评价指标,他们认为有效地回答应该和真实回答之间存在大量的词重叠(但是对话系统的答案空间往往是发散的,也就是一个问题的答案可能是完全不同的两句话,这种情况下该评价指标效果不好),也就是说这是一个非常强的假设。(以下环节中r表示真是响应,r^表示系统生成响应)
BLEU
该评价指标有IBM在2002年提出,参考论文“BLEU: a Method for Automatic Evaluation