【对话系统】对话系统评价方法综述-阅读笔记

本文概述了对话系统的发展,重点介绍了任务型和非任务型对话的评价方法,包括用户模拟、人工评价和各种客观指标,如BLEU、METROR、ROUGE等词重叠矩阵,以及基于词向量的贪婪匹配、向量均值和极值法。
摘要由CSDN通过智能技术生成

对话系统发展概述

  • 1950s:图灵测试
  • 1960s:第一个人机对话系统ELIZA
  • 1990s:第一个chatbot型人机对话系统ALICE
  • 2010s:互联网公司推出各类智能人机对话系统

任务型对话评价方法

  • 90s PARADISE系统建立多种特征线性方程的满意度指标
  • 实际操作中对话系统成功率最小化对话长度作为对话系统评测的指标

对话系统成功率
最小化对话长度

  • 2010s,基于标注语料的数据驱动类对话评价模型成为主流。

用户模拟

系统模拟真实用户,在制定轮次下没有给出答案则认为对话失败。

人工评价

雇佣大量的测评人员。可以使用外包的模式。如AMT:雇佣人按照指令和系统进行对话,每次对话后给出反馈信息(标记)。该方法可以产生大量的真实的对话数据。

动态系统

在真实环境中应用对话系统,需要在真实环境中达到用户的需求。

非任务型对话系统评价方法

客观指标

词重叠矩阵

词重叠:生成的回复和标准答案之间的次重叠率。

BLEU
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值