作者:禅与计算机程序设计艺术
1.简介
DSTC8是一个面向任务型的对话系统开发比赛,目标是在更大的规模下训练高性能的任务型对话系统。该项目共涉及三类任务,包括闲聊、知识回答和任务型对话系统。本次比赛主要使用了Cornell电子邮件聊天日志数据集作为数据源,其中包含约10万多条对话数据,涵盖了多个领域,如餐馆推荐、价格预测、疫情跟踪等。DSTC8在今年的第一季度举行,目前已经进入第二阶段。截至目前,共有两项任务完成(离线评估任务已完成),第三个任务即将开始。
2.数据集概览
数据集说明
DSTC8数据集包括四个数据文件:train.json、test.json、dev.json、schema.json。下面简单介绍一下各个文件的作用。
train.json
训练数据集。每一条对话都有一个id和两个列表:utterances表示该对话的历史记录,actions表示当前的用户回复。对于每一个对话,其utterances列表至少包含两个句子,第一个元素是用户的语句,后续的元素是系统的回复。每一个action都有一个type属性,用于指示该动作是一个system reply还是user statement,另外还有一个text属性表示对应的文本内容。
{