导读:人机对话是人工智能的重要挑战,近年来获得了学术界和工业界的广泛关注。为了帮助广大开发者们更快捷地实现对话系统的开发,飞桨在自然语言处理模型库(PaddleNLP)中开源了对话模型工具库,内置了对话通用理解模型(DGU)和对话自动评估模块(ADE)。 在上一篇文章中,我们已经为大家介绍了对话通用理解模型(DGU)。在本篇文章中,将为大家介绍对话自动评估模块(ADE)。
1. 对话自动评估
随着对话系统的不断发展和成熟,如何评价对话系统的回复质量,成为了一个新的研究方向。
对话自动评估技术,能够帮助企业或个人快速评估对话系统的回复质量,减少人工评估成本,具有重要的商业意义。
例如,在客服领域,对话自动评估技术可以应用于客服服务质量的评估,判断是否存在答非所问等情况,能够帮助电商管理者进一步了解客服人员的服务水平,从而辅助制定管理决策。
在人机对话领域,对话自动评估技术也可以用于评估机器人的回复质量,作为对话系统优劣的一个辅助判断标准,成为对话系统改进的参考指标。
2. 飞桨ADE模块介绍
2.1. 模型介绍
飞桨对话自动评估模块(ADE),主要用于评估开放领域对话系统的回复质量。
它的输入是文本对(上文,回复),输出是回复质量得分。
考虑到匹配任务(预测上下文是否匹配)与自动评估任务之间的天然联系,飞桨ADE模块利用了匹配任务作为自动评估任务的预训练,然后再利用少量标注数据进行模型微调。
因此,飞桨ADE模块可以在无标注数据或少量标注数据的情况下使用:
-
在无标注数据的情况下,利用负采样训练匹配模型作为评估工具,实现对多个对话系统回复质量排序。
-
利用少量标注数据(特定对话系统或场景的人工打分),在匹配模型基础上进行微调,可以显著提高该对话系统或场景的评估效果。
飞桨ADE模块内提供了两个模型:
-
匹配模型:context和response作为输入,使用lstm学习两个句子的表示,在计算两个线性张量的积作为logits,然后使用sigmoid_cross_entropy_with_logits作为loss, 最终用来评估相似程度。
-
finetuing模型:在匹配模型的基础上,将sigmoid_cross_entropy_with_logits loss优化成平方损失loss,进行训练。
2.2. 效果评测
我们以四个不同的对话系统(seq2seq_naive/seq2seq_att/keywords/human)为例,使用对话自动评估工具进行自动评估。
1、无标注数据情况下,直接使用预训练好的评估工具进行评估; 在四个对话系统上,自动评估打分和人工评估打分spearman相关系数,如下:
对四个系统平均得分排序:
2、利用少量标注数据微调后,自动评估打分和人工打分spearman相关系数,如下:
3. 飞桨ADE上手指南
下面将送上代码,手把手地教您如何使用飞桨对话自动评估模块(ADE)。
3.1. 安装说明
环境依赖:
-
Python >= 2.7
-
cuda >= 9.0
-
cudnn >= 7.0
-
pandas >= 0.20.1
-
PaddlePaddle >= 1.6.0
克隆项目:
git clone https://github.com/PaddlePaddle/models.git
cd models/PaddleNLP/dialogue_model_toolkit/auto_dialogue_evaluation
3.2. 任务简介
本模块内模型训练主要包括两个阶段:
1)第一阶段:训练一个匹配模型作为评估工具,可用于待评估对话系统内的回复内容进行排序;(matching任务)
模型结构: 输入为context和response,对两个输入学习embedding表示, 学习到的表示经过lstm学习高阶表示, context和response的高阶表示计算双线性张量积logits, logits和label计算sigmoid_cross_entropy_with_logits loss;
2)第二阶段:利用少量的对话系统的标记数据,对第一阶段训练的匹配模型进行finetuning,可以提高评估效果(包含human,keywords,seq2seq_att,seq2seq_naive,4个finetuning任务);
模型结构: finetuning阶段学习表示到计算logits部分和第一阶段模型结构相同,区别在于finetuning阶段计算square_error_cost loss;
用于第二阶段fine-tuning的对话系统包括下面四部分:
-
human: 人工模拟的对话系统;
-
keywords:seq2seq keywords对话系统;
-
seq2seq_att:seq2seq attention model 对话系统;
-
seq2seq_naive:naive seq2seq model对话系统;
3.3. 数据准备
数据集、相关模型下载:
cd ade && bash prepare_data_and_model.sh
数据路径:data/input/data/
模型路径:data/saved_models/trained_models/
3.4. 模型配置
配置文件路径: data/config/ade.yaml
3.5. 单机训练
1、第一阶段matching模型的训练:
方式一: 推荐直接使用模块内脚本训练
bash run.sh matching train
方式二: 执行训练相关的代码:
export FLAGS_sync_nccl_allreduce=0
export FLAGS_eager_delete_tensor_gb=1 #开启显存优化
export CUDA_VISIBLE_DEVICES=0 #GPU单卡训练
#export CUDA_VISIBLE_DEVICES=0,1,2,3 #GPU多卡训练
#export CUDA_VISIBLE_DEVICES= #CPU训练
#export CPU_NUM=1 #CPU训练时指定CPU number
if [ !"$CUDA_VISIBLE_DEVICES" ]
then
use_cuda=false
else
use_cuda=true
fi
pretrain_model_path="data/saved_models/matching_pretrained"
if [ -f ${pretrain_model_path} ]
then
rm${pretrain_model_path}
fi
if [ ! -d ${pretrain_model_path} ]
then
mkdir${pretrain_model_path}
fi
2、第二阶段finetuning模型的训练:
方式一: 推荐直接使用模块内脚本训练
bash run.sh task_name task_type
task_name和task_type为具体的任务参数,可以在文末Github查看详细内容。
方式二: 执行训练相关的代码:
export FLAGS_sync_nccl_allreduce=0
export FLAGS_eager_delete_tensor_gb=1 #开启显存优化
export CUDA_VISIBLE_DEVICES=0 #GPU单卡训练
#export CUDA_VISIBLE_DEVICES=0,1,2,3 #GPU多卡训练
#export CUDA_VISIBLE_DEVICES= #CPU训练
#export CPU_NUM=1 #CPU训练时指定CPU number
if [ !"$CUDA_VISIBLE_DEVICES" ]
then
use_cuda=false
else
use_cuda=true
fi
save_model_path="data/saved_models/human_finetuned"
if [ -f ${save_model_path} ]
then
rm${save_model_path}
fi
if [ ! -d ${save_model_path} ]
then
mkdir${save_model_path}
fi
3.6. 模型预测
1、第一阶段matching模型的预测:
方式一: 推荐直接使用模块内脚本预测
bash run.sh matching predict
方式二: 执行预测相关的代码:
export FLAGS_sync_nccl_allreduce=0
export FLAGS_eager_delete_tensor_gb=1 #开启显存优化
export CUDA_VISIBLE_DEVICES=0 #单卡预测
#export CUDA_VISIBLE_DEVICES= #CPU预测
#export CPU_NUM=1 #CPU训练时指定CPU number
if [ !"$CUDA_VISIBLE_DEVICES" ]
then
use_cuda=false
else
use_cuda=true
fi
2、第二阶段finetuning模型的预测:
方式一: 推荐直接使用模块内脚本预测
bash run.sh task_name task_type
task_name和task_type为具体的任务参数,可以在文末Github查看详细内容。
方式二: 执行预测相关的代码:
export FLAGS_sync_nccl_allreduce=0
export FLAGS_eager_delete_tensor_gb=1 #开启显存优化
export CUDA_VISIBLE_DEVICES=0 #单卡预测
#export CUDA_VISIBLE_DEVICES= #CPU预测
#export CPU_NUM=1 #CPU训练时指定CPU number
if [ !"$CUDA_VISIBLE_DEVICES" ]
then
use_cuda=false
else
use_cuda=true
fi
3.7. 模型评估
模块中5个任务,各任务支持计算的评估指标内容如下:
第一阶段:
matching: 使用R1@2, R1@10, R2@10, R5@10四个指标进行评估排序模型的效果;
第二阶段:
-
human: 使用spearman相关系数来衡量评估模型对系统的打分与实际对话系统打分之间的关系;
-
keywords:使用spearman相关系数来衡量评估模型对系统的打分与实际对话系统打分之间的关系;
-
seq2seq_att:使用spearman相关系数来衡量评估模型对系统的打分与实际对话系统打分之间的关系;
-
seq2seq_naive:使用spearman相关系数来衡量评估模型对系统的打分与实际对话系统打分之间的关系;
1、第一阶段matching模型的评估:
方式一: 推荐直接使用模块内脚本评估
bash run.sh matching evaluate
方式二: 执行评估相关的代码:
export CUDA_VISIBLE_DEVICES= #指默认CPU评估
export CPU_NUM=1 #CPU训练时指定CPU number
python -u main.py \
--do_eval=true \
--use_cuda=false \
--evaluation_file="data/input/data/unlabel_data/test.ids" \
--output_prediction_file="data/output/pretrain_matching_predict"\
--loss_type="CLS"
2、第二阶段finetuning模型的评估:
方式一: 推荐直接使用模块内脚本评估
bash run.sh task_name task_type
task_name和task_type为具体的任务参数,可以在文末Github查看详细内容。
方式二: 执行评估相关的代码:
export CUDA_VISIBLE_DEVICES= #指默认CPU评估
export CPU_NUM=1 #CPU训练时指定CPU number
python -u main.py \
--do_eval=true \
--use_cuda=false \
--evaluation_file="data/input/data/label_data/human/test.ids"\
--output_prediction_file="data/output/finetuning_human_predict"\
--loss_type="L2"
3.8. 模型推断
1、第一阶段matching模型的推断:
方式一: 推荐直接使用模块内脚本保存inferencemodel
bash run.sh matching inference
方式二: 执行inferencemodel相关的代码:
export CUDA_VISIBLE_DEVICES=0 # 指GPU单卡推断
#export CUDA_VISIBLE_DEVICES= #CPU推断
#export CPU_NUM=1 #CPU训练时指定CPU number
if [ !"$CUDA_VISIBLE_DEVICES" ]
then
use_cuda=false
else
use_cuda=true
fi
python -u main.py \
--do_save_inference_model=true \
--use_cuda=${use_cuda} \
--init_from_params="data/saved_models/trained_models/matching_pretrained/params"\
--inference_model_dir="data/inference_models/matching_inference_model"
2、第二阶段finetuning模型的推断:
方式一: 推荐直接使用模块内脚本保存inferencemodel
bash run.sh task_name task_type
task_name和task_type为具体的任务参数,可以在文末Github查看详细内容。
方式二: 执行inferencemodel相关的代码:
export CUDA_VISIBLE_DEVICES=0 # 指GPU单卡推断
#export CUDA_VISIBLE_DEVICES= #CPU推断
#export CPU_NUM=1 #CPU训练时指定CPU number
if [ !"$CUDA_VISIBLE_DEVICES" ]
then
use_cuda=false
else
use_cuda=true
fi
python -u main.py \
--do_save_inference_model=true \
--use_cuda=${use_cuda} \
--init_from_params="data/saved_models/trained_models/human_finetuned/params"\
--inference_model_dir="data/inference_models/human_inference_model"
3.9. 服务部署
模块内提供已训练好的5个inference_model模型,您可直接下载使用。
今天关于飞桨对话自动评估模块(ADE)的介绍到这里就结束了,赶快动手尝试一下吧!
想与更多的深度学习开发者交流,请加入飞桨官方QQ群:796771754。
如果您想详细了解更多飞桨PaddlePaddle的相关内容,请参阅以下文档。
官网地址:
https://www.paddlepaddle.org.cn/
项目地址:
https://github.com/PaddlePaddle/models/tree/release/1.6/PaddleNLP/PaddleDialogue