深度学习对话系统理论篇--数据集和评价指标介绍

最新推荐文章于 2025-03-11 22:00:00 发布

liuchongee

最新推荐文章于 2025-03-11 22:00:00 发布

阅读量9.7k

点赞数 8

分类专栏： QA 深度学习 nlp 深度学习与NLP--论文笔记和TensorFlow实现 QA_对话机器人_机器阅读专题文章标签：深度学习对话系统评价指标数据集

本文链接：https://blog.csdn.net/liuchonge/article/details/79104045

版权

本文介绍了对话系统中常用的评价指标，包括词重叠指标（BLEU、ROUGE、METEOR）和词向量指标（Greedy Matching、Embedding Average、Vector Extrema），以及perplexity困惑度。同时，讨论了人工指标的重要性，并列举了对话系统常用的数据集，如Cornell Movie Dialogs、Ubuntu Dialogue Corpus等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

对话系统常用评价指标

当前对话系统之所以还没有取得突破性的进展，很大程度上是因为没有一个可以准确表示回答效果好坏的评价标准。对话系统中大都使用机器翻译、摘要生成领域提出来的评价指标，但是很明显对话系统的场景和需求与他们是存在差别的，这也是当前模型效果不是很好的原因之一。从对话系统不同的层次角度来评价对话系统的效果时，每个层面会有不同的关注点，如下图所示：

从上图可以看出，黄色标识人类的主观角度，而蓝色表示系统的一些客观评价指标，可以用来衡量主观需求。对于某一轮对话而言，可以使用响应的适当性、流畅度、相关性；对于多轮对话而言，我们更关注流畅性、对话深度、多样性、一致连贯性等指标；而对于整个对话系统，我们则希望他可以涵盖更多的话题、回复真实可信等等。这些都是我们想要对话系统所拥有的能力，但是往往在一个具体的任务中我们只能关注某一项或者几项指标，这里我们主要针对开放域生成式对话模型的评价指标进行总结。

首先感谢@徐阿衡回答的了我的这个问题：现在基于深度学习的对话系统常用的评价指标有哪些，分别有什么优缺点和适用范围？，让我对当前对话系统的评价指标有了一个大致的认识，这里主要关注于其提到的第二点也就是词重叠评价指标（BLEU、ROUGE、METEOR）和词向量评价指标（Greedy matching、Embedding Average、Vector Extrema），还有perplexity困惑度，会扩展的讲一下每种指标的细节。这部分内容可以参考论文“How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation”，该论文详细论述了非监督生成式对话系统的各种评价指标。