对话系统评测相关论文——第一篇
论文题目:How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation
论文摘要
对已经存在的评估指标进行定性和定量的分析得出它们具体的不足之处,为未来的对话系统评估指标的发展提供建议。
论文内容
1.评估对话系统回复的质量。典型的评估工作使用人工评分生成的监督信息,如任务的完成情况和用户的满意度。这些工作主要针对任务型对话系统。
2.作者将对话系统模型分为有监督对话模型和无监督对话模型,主要研究无监督对话模型,如聊天机器人。这类模型得到越来越多的关注,特别是使用神经网络进行端到端的训练。自动化评估指标有助于加速非监督对话系统的部署。
3.其它自然语言领域已经成功开发了自动化评估指标。例如用于评估机器翻译模型的标准指标BLEU和METEOR,用于自动翻译评估的ROUGE。这些指标目前被应用在对话领域中。然而这些指标都是假设机器回复的内容与正确回复有显著的字重叠。这是一个强有力的假设,对于对话系统给定上下文可以有非常多样的回复。
3.文章针对几种不同的对话模型,计算在对话回复质量上已有的评测指标与人类判断的相关程度,考虑三种字重叠指标和词嵌入指标如Word2Vec,作者发现尽管字重叠指标已经被广泛应用在了对话系统评估上,但是实际上这些指标与人类判断之间相关性很低。
4.通过以下几点来说明这些指标的缺点:1)对研究结果进行统计分析;2)对数据中的例子进行定性分析;3)对指标的敏感性进行探讨
相关工作
1.只关注与模型无关的指标,并不考虑word perplexity,即使在一些研究中也被用于评估;只考虑能够用于评估真实回复的指标,不考虑基于检索的指标,如recall;也不考虑有监督模型的评估方法。
2.介绍只用BLEU分数作为评测指标的几种案例。
3.介绍在机器翻译领域,大量的关于度量指标与人类判断之间的相关性的工作,批判其指标无用的。这些批判工作可以应用到对话系统。
4.作者主要研究两种方法:基于词的相似度度量方法和基于词嵌入的相似度度量方法。
5.作者将对话系统可以分为检索模型和生成模型两类。
实验内容
1.数据收集。
2.评测指标在Twitter上与人类评价有很小的相关性,在Ubuntu语料上几乎没有相关性,很可能是Ubuntu语料上产生的回复有更多的可变性。
3.实验说明评测指标与人类判断之间的关系。
4.对数据去掉停止词和标点,使用BLEU,相关性更差,说明BLEU对不影响词义的词语很敏感.
5.回复长度对评测指标也会有影响。BLEU和METEOR相比于平均词嵌入指标与人类判断更敏感。