深度学习对话系统理论篇--数据集和评价指标介绍

本文介绍了对话系统中常用的评价指标,包括词重叠指标(BLEU、ROUGE、METEOR)和词向量指标(Greedy Matching、Embedding Average、Vector Extrema),以及perplexity困惑度。同时,讨论了人工指标的重要性,并列举了对话系统常用的数据集,如Cornell Movie Dialogs、Ubuntu Dialogue Corpus等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

对话系统常用评价指标

当前对话系统之所以还没有取得突破性的进展,很大程度上是因为没有一个可以准确表示回答效果好坏的评价标准。对话系统中大都使用机器翻译、摘要生成领域提出来的评价指标,但是很明显对话系统的场景和需求与他们是存在差别的,这也是当前模型效果不是很好的原因之一。从对话系统不同的层次角度来评价对话系统的效果时,每个层面会有不同的关注点,如下图所示:

从上图可以看出,黄色标识人类的主观角度,而蓝色表示系统的一些客观评价指标,可以用来衡量主观需求。对于某一轮对话而言,可以使用响应的适当性、流畅度、相关性;对于多轮对话而言,我们更关注流畅性、对话深度、多样性、一致连贯性等指标;而对于整个对话系统,我们则希望他可以涵盖更多的话题、回复真实可信等等。这些都是我们想要对话系统所拥有的能力,但是往往在一个具体的任务中我们只能关注某一项或者几项指标,这里我们主要针对开放域生成式对话模型的评价指标进行总结。

首先感谢@徐阿衡回答的了我的这个问题:现在基于深度学习的对话系统常用的评价指标有哪些,分别有什么优缺点和适用范围?,让我对当前对话系统的评价指标有了一个大致的认识,这里主要关注于其提到的第二点也就是词重叠评价指标(BLEU、ROUGE、METEOR)和词向量评价指标(Greedy matching、Embedding Average、Vector Extrema),还有perplexity困惑度,会扩展的讲一下每种指标的细节。这部分内容可以参考论文“How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation”,该论文详细论述了非监督生成式对话系统的各种评价指标。

词重叠评价指标

首先来看词重叠评价指标,他们认为有效地回答应该和真实回答之间存在大量的词重叠(但是对话系统的答案空间往往是发散的,也就是一个问题的答案可能是完全不同的两句话,这种情况下该评价指标效果不好),也就是说这是一个非常强的假设。(以下环节中r表示真是响应,r^表示系统生成响应)

BLEU

该评价指标有IBM在2002年提出,参考论文“BLEU: a Method for Automatic Evaluation

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值