飞桨对话模型工具箱(二):对话自动评估模块ADE

本文介绍了飞桨对话自动评估模块ADE,用于评估开放领域对话系统的回复质量。ADE利用匹配任务预训练,然后微调以适应特定对话系统,提供匹配模型和finetuning模型。通过实验证明,ADE在无标注数据和少量标注数据下都能有效评估对话系统,且与人工评估有较高相关性。
摘要由CSDN通过智能技术生成

导读:人机对话是人工智能的重要挑战,近年来获得了学术界和工业界的广泛关注。为了帮助广大开发者们更快捷地实现对话系统的开发,飞桨在自然语言处理模型库(PaddleNLP)中开源了对话模型工具库,内置了对话通用理解模型(DGU)和对话自动评估模块(ADE)。 在上一篇文章中,我们已经为大家介绍了对话通用理解模型(DGU)。在本篇文章中,将为大家介绍对话自动评估模块(ADE)。

 

1.  对话自动评估

 

随着对话系统的不断发展和成熟,如何评价对话系统的回复质量,成为了一个新的研究方向。

 

对话自动评估技术,能够帮助企业或个人快速评估对话系统的回复质量,减少人工评估成本,具有重要的商业意义。

 

例如,在客服领域,对话自动评估技术可以应用于客服服务质量的评估,判断是否存在答非所问等情况,能够帮助电商管理者进一步了解客服人员的服务水平,从而辅助制定管理决策。

 

在人机对话领域,对话自动评估技术也可以用于评估机器人的回复质量,作为对话系统优劣的一个辅助判断标准,成为对话系统改进的参考指标。

 

2.  飞桨ADE模块介绍

 

2.1.   模型介绍

 

飞桨对话自动评估模块(ADE),主要用于评估开放领域对话系统的回复质量。

 

它的输入是文本对(上文,回复),输出是回复质量得分。

 

考虑到匹配任务(预测上下文是否匹配)与自动评估任务之间的天然联系,飞桨ADE模块利用了匹配任务作为自动评估任务的预训练,然后再利用少量标注数据进行模型微调。

 

因此,飞桨ADE模块可以在无标注数据或少量标注数据的情况下使用:

 

  1. 在无标注数据的情况下,利用负采样训练匹配模型作为评估工具,实现对多个对话系统回复质量排序。

  2. 利用少量标注数据(特定对话系统或场景的人工打分),在匹配模型基础上进行微调,可以显著提高该对话系统或场景的评估效果。

 

飞桨ADE模块内提供了两个模型:

 

  1. 匹配模型:context和response作为输入,使用lstm学习两个句子的表示,在计算两个线性张量的积作为logits,然后使用sigmoid_cross_entropy_with_logits作为loss, 最终用来评估相似程度。

  2. finetuing模型:在匹配模型的基础上,将sigmoid_cross_entropy_with_logits loss优化成平方损失loss,进行训练。

 

2.2.   效果评测

 

我们以四个不同的对话系统(seq2seq_naive/seq2seq_att/keywords/human)为例,使用对话自动评估工具进行自动评估。

 

1、无标注数据情况下,直接使用预训练好的评估工具进行评估; 在四个对话系统上,自动评估打分和人工评估打分spearman相关系数,如下:

 

对四个系统平均得分排序:

 

2、利用少量标注数据微调后,自动评估打分和人工打分spearman相关系数,如下:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值