【对话系统】对话系统评价方法综述-阅读笔记

veronachiu

于 2020-05-12 10:13:16 发布

阅读量1k

点赞数 1

分类专栏：对话系统文章标签：深度学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/veronachiu/article/details/106055826

版权

本文概述了对话系统的发展，重点介绍了任务型和非任务型对话的评价方法，包括用户模拟、人工评价和各种客观指标，如BLEU、METROR、ROUGE等词重叠矩阵，以及基于词向量的贪婪匹配、向量均值和极值法。

摘要由CSDN通过智能技术生成

对话系统发展概述

1950s：图灵测试
1960s：第一个人机对话系统ELIZA
1990s：第一个chatbot型人机对话系统ALICE
2010s：互联网公司推出各类智能人机对话系统

任务型对话评价方法

90s PARADISE系统建立多种特征线性方程的满意度指标
实际操作中对话系统成功率和最小化对话长度作为对话系统评测的指标

对话系统成功率：
最小化对话长度：

2010s，基于标注语料的数据驱动类对话评价模型成为主流。

用户模拟

系统模拟真实用户，在制定轮次下没有给出答案则认为对话失败。

人工评价

雇佣大量的测评人员。可以使用外包的模式。如AMT：雇佣人按照指令和系统进行对话，每次对话后给出反馈信息（标记）。该方法可以产生大量的真实的对话数据。

动态系统

在真实环境中应用对话系统，需要在真实环境中达到用户的需求。

非任务型对话系统评价方法

客观指标

词重叠矩阵

词重叠：生成的回复和标准答案之间的次重叠率。

BLEU

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【对话系统】对话系统评价方法综述-阅读笔记

对话系统发展概述1950s：图灵测试1960s：第一个人机对话系统ELIZA1990s：第一个chatbot型人机对话系统ALICE2010s：互联网公司推出各类智能人机对话系统任务型对话评价方法90s PARADISE系统建立多种特征线性方程的满意度指标实际操作中对话系统成功率和最小化对话长度作为对话系统评测的指标对话系统成功率：最小化对话长度：2010s，基于标注语料的数据驱动类对话评价模型成为主流。用户模拟系统模拟真实用户，在制定轮次下没有给出答案则认为对话失败
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。