MultiWOZ 2.1: A Consolidated Multi-Domain Dialogue Dataset with State Corrections and State Tracking Baselines
MultiWOZ 2.1:具有状态校正和状态跟踪基线的综合多域对话数据集
Abstract
首先抬一手MUZ2.0,虽然目前是最大的多域对话数据集,但是MUZ2.0还是存在很多问题。
第一:对话状态注释和对话话语中存在大量的噪声
第二:扩充了原始数据集的多个共存版本,不统一
所以论文提出2.1版本的数据集解决以上问题。
为了解决数据集中的噪声问题,人工的重新对对话数据集进行标注。此外,将数据集中话语的槽值规范成预定于实体中的槽值。
并包含了域槽的描述
Introduction
DST 的重要性,MUZ2.0数据集为turn级别的数据集进行对话状态的注释,但是有噪声。
论文的贡献:
一、论文中详细总结了2.0中出现的4种错误,此外更正拼写错误,和规范化实体名称。
二、2.1将最近为2.0增加的很多对话行为都总结起来,并加入了域槽的描述信息。
Dataset Corrections
MUZ2.0中的话语是Wizard-of-OZ数据集中收集的,在这个数据集中有两个工作人员一个扮演向导,一个扮演用户。为用户角色提供一个目标,让用户角色的人与基于文本的聊天界面与向导交流。在这种情况下,2.0数据集中会出现以下错误:
Dialogue State Error Types
(1)延迟注释:指应该在当前轮次注释的槽值确没有注释,而是在之后几轮处理后注释上了。
(2)槽值分开注释:话语中提到的槽值其中含有多个token,这样模型就有可能针对多个token匹配多个槽值,从而导致对话状态的性能下降
(3)注释错误:槽值填充错误
(4)槽值拼写错误:槽值注释的是正确的,但是拼写错误
(5)槽值遗忘:有些预定义的槽值一直没有出现在对话状态中
Dialogue State Corrections
论文中采用两种方法修正数据集中的错误:(1)手动修改(2)自动修改。
手动修改是要求工作人员逐个对样本进行检查并修改
其中作者发现有些对话样本钟大哥对话状态的域槽可能包含多个槽值,因此,作者将多个槽值加入进去了。2.1数据集中有超过250哥多曹植的域槽。
同时发现对话话语中存在错误的槽值,会影响对话状态的生成,作者将生成的对话状态的槽值根据后台数据库规范化。
规范化槽值之后,很多域槽中的槽值明显减少,说明作者去掉了一些重复不规范的槽值,但是针对时间方面的域槽 ,槽值增加了,因为作者扩充了时间点,以24小时制度注释。
Dialogue Utterance Corrections
作者指出,对话话语中提及的槽值的规范化正确性非常重要。即话语中的槽值有可能拼写错误、或者与预定义实体中的槽值拼写不一样。
总共修改了146个话语。
Slot Description
为了适应低资源任务的开发,可以通过学习潜在的语义表示仅使用slot描述来引导新领域。是可行的。
我们研究了两个注释器,并未每个域槽添加了至少一个自然语言描述。当在插槽名称本身不具有含义的情况下采用自然语言描述会帮助模型理解。
Dialogue act annotation
2.0中缺少用户话语行为的注释。作者对系统话语和用户话语都进行了增加
Results and Discussion
性能下降,为DST未来模型改进留下了充足改进的空间。