飞桨对话模型工具箱（二）：对话自动评估模块ADE

最新推荐文章于 2023-03-05 10:01:54 发布

dadataka

最新推荐文章于 2023-03-05 10:01:54 发布

阅读量170

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dadataka/article/details/103266924

版权

本文介绍了飞桨对话自动评估模块ADE，用于评估开放领域对话系统的回复质量。ADE利用匹配任务预训练，然后微调以适应特定对话系统，提供匹配模型和finetuning模型。通过实验证明，ADE在无标注数据和少量标注数据下都能有效评估对话系统，且与人工评估有较高相关性。

摘要由CSDN通过智能技术生成

导读：人机对话是人工智能的重要挑战，近年来获得了学术界和工业界的广泛关注。为了帮助广大开发者们更快捷地实现对话系统的开发，飞桨在自然语言处理模型库（PaddleNLP）中开源了对话模型工具库，内置了对话通用理解模型（DGU）和对话自动评估模块（ADE）。在上一篇文章中，我们已经为大家介绍了对话通用理解模型（DGU）。在本篇文章中，将为大家介绍对话自动评估模块（ADE）。

1. 对话自动评估

随着对话系统的不断发展和成熟，如何评价对话系统的回复质量，成为了一个新的研究方向。

对话自动评估技术，能够帮助企业或个人快速评估对话系统的回复质量，减少人工评估成本，具有重要的商业意义。

例如，在客服领域，对话自动评估技术可以应用于客服服务质量的评估，判断是否存在答非所问等情况，能够帮助电商管理者进一步了解客服人员的服务水平，从而辅助制定管理决策。

在人机对话领域，对话自动评估技术也可以用于评估机器人的回复质量，作为对话系统优劣的一个辅助判断标准，成为对话系统改进的参考指标。

2. 飞桨ADE模块介绍

2.1. 模型介绍

飞桨对话自动评估模块（ADE），主要用于评估开放领域对话系统的回复质量。

它的输入是文本对（上文，回复），输出是回复质量得分。

考虑到匹配任务（预测上下文是否匹配）与自动评估任务之间的天然联系，飞桨ADE模块利用了匹配任务作为自动评估任务的预训练，然后再利用少量标注数据进行模型微调。

因此，飞桨ADE模块可以在无标注数据或少量标注数据的情况下使用：

在无标注数据的情况下，利用负采样训练匹配模型作为评估工具，实现对多个对话系统回复质量排序。
利用少量标注数据（特定对话系统或场景的人工打分），在匹配模型基础上进行微调，可以显著提高该对话系统或场景的评估效果。

飞桨ADE模块内提供了两个模型：

匹配模型：context和response作为输入，使用lstm学习两个句子的表示，在计算两个线性张量的积作为logits，然后使用sigmoid_cross_entropy_with_logits作为loss, 最终用来评估相似程度。
finetuing模型：在匹配模型的基础上，将sigmoid_cross_entropy_with_logits loss优化成平方损失loss，进行训练。

2.2. 效果评测

我们以四个不同的对话系统（seq2seq_naive／seq2seq_att／keywords／human）为例，使用对话自动评估工具进行自动评估。

1、无标注数据情况下，直接使用预训练好的评估工具进行评估；在四个对话系统上，自动评估打分和人工评估打分spearman相关系数，如下：

对四个系统平均得分排序：

2、利用少量标注数据微调后，自动评估打分和人工打分spearman相关系数，如下：

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
飞桨对话模型工具箱（二）：对话自动评估模块ADE

导读：人机对话是人工智能的重要挑战，近年来获得了学术界和工业界的广泛关注。为了帮助广大开发者们更快捷地实现对话系统的开发，飞桨在自然语言处理模型库（PaddleNLP）中开源了对话模型工具库，内置了对话通用理解模型（DGU）和对话自动评估模块（ADE）。在上一篇文章中，我们已经为大家介绍了对话通用理解模型（DGU）。在本篇文章中，将为大家介绍对话自动评估模块（ADE）。1. 对话...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。