对话系统评测-How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metri

最新推荐文章于 2023-02-16 13:55:29 发布

spring_willow

最新推荐文章于 2023-02-16 13:55:29 发布

阅读量1.1k

点赞数 1

分类专栏：论文笔记

本文链接：https://blog.csdn.net/spring_willow/article/details/81838012

版权

论文笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

对话系统评测相关论文——第一篇

论文题目：How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation

论文摘要

对已经存在的评估指标进行定性和定量的分析得出它们具体的不足之处，为未来的对话系统评估指标的发展提供建议。

论文内容

1.评估对话系统回复的质量。典型的评估工作使用人工评分生成的监督信息，如任务的完成情况和用户的满意度。这些工作主要针对任务型对话系统。
2.作者将对话系统模型分为有监督对话模型和无监督对话模型，主要研究无监督对话模型，如聊天机器人。这类模型得到越来越多的关注，特别是使用神经网络进行端到端的训练。自动化评估指标有助于加速非监督对话系统的部署。
3.其它自然语言领域已经成功开发了自动化评估指标。例如用于评估机器翻译模型的标准指标BLEU和METEOR，用于自动翻译评估的ROUGE。这些指标目前被应用在对话领域中。然而这些指标都是假设机器回复的内容与正确回复有显著的字重叠。这是一个强有力的假设，对于对话系统给定上下文可以有非常多样的回复。
3.文章针对几种不同的对话模型，计算在对话回复质量上已有的评测指标与人类判断的相关程度，考虑三种字重叠指标和词嵌入指标如Word2Vec，作者发现尽管字重叠指标已经被广泛应用在了对话系统评估上，但是实际上这些指标与人类判断之间相关性很低。
4.通过以下几点来说明这些指标的缺点：1）对研究结果进行统计分析；2）对数据中的例子进行定性分析；3）对指标的敏感性进行探讨

实验内容

1.数据收集。
2.评测指标在Twitter上与人类评价有很小的相关性，在Ubuntu语料上几乎没有相关性，很可能是Ubuntu语料上产生的回复有更多的可变性。
3.实验说明评测指标与人类判断之间的关系。
4.对数据去掉停止词和标点，使用BLEU，相关性更差，说明BLEU对不影响词义的词语很敏感．
５.回复长度对评测指标也会有影响。BLEＵ和METEOR相比于平均词嵌入指标与人类判断更敏感。

spring_willow

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
对话系统评测-How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metri

对话系统评测相关论文——第一篇论文题目：How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation论文摘要对已经存在的评估指标进行定性和定量的分析得出它们具体的不足之处，为未来的对话...
复制链接

扫一扫