©PaperWeekly 原创 · 作者 | 褚维芜
单位 | 北京邮电大学硕士生
研究方向 | 自然语言处理
引言
近年来,随着预训练模型的发展,对话领域的研究也逐渐开始关注基于预训练的端到端对话系统,2019-2021 这三年的时间涌现出很多关于开放域对话系统预训练的相关研究,基于英文的包括 google 在 2020 年 1 月发表的 Meena、Facebook 在 4 月发表的 Blender,基于中文的主要以百度 PLATO 系列模型为代表 [1]。这些模型的成功一定程度上表明海量数据和更大的模型能为对话系统带来很好的性能收益。
然而,这种依靠参数量、数据量来提升系统性能的方式对于任务型对话而言并不完全适用。一方面,任务型对话数据集本身比闲聊型对话更难收集,想要获取一个非常大的数据集来对任务型对话系统进行预训练是非常困难的;另一方面,预训练模型参数过大,训练和运行需要很高的计算成本,会存在无法快速部署的问题。由于以上问题的存在,任务型对话预训练的发展速度明显不如开放域对话,但最近两年也逐渐有一些针对任务型对话进行预训练的相关工作,本文将对这些工作做一个梳理总结,供大家参考。
本文主要介绍的工作有:
2020EMNLP:TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogue [2]
2021TACL:Soloist: Building task bots at scale with transfer learning and machine teaching [3]
2021arXiv:PPTOD:Multi-Task Pre-Training for Plug-and-Play Task-Oriented Dialogue System(PPTOD)[4]
2022AAAI:GALAXY: A Generative Pre-trained Model for Task-Oriented Dialog with Semi-Supervised[5] Learning and Explicit Policy Injection
TOD-BERT:面向任务型对话理解的预训练模型
2.1 Background & Motivation
使用现有的预训练语言模型直接在任务型对话数据上进行 fine-tune 无法取得很好的性能,主要原因包括以下两点:一是,对话数据和文本数据的语言模式不同,所以两者的数据分布有很大差异,因此普通文本预训练的语言模型在对话数据上表现不佳;二是,闲聊型对话数据广泛且易于获得,但是它们通常很短,没有明确的对话目标。而任务型对话通常有明确的目标,多轮对话交互,因此闲聊型对话数据预训练模型也很难在任务型对话数据上取得很好的表现。
任务型对话数据集通常小而稀疏,标注成本很高,本文通过联合多个数据集在一定程度上缓解了任务型对话预训练数据量不足的问题,并针对对话数据的特点对原始 BERT 模型的输入、预训练任务进行修改使得模型可以更好地捕捉对话特有的任务信息。
2.2 Method
数据集:本文联合了九个不同的多轮任务型对话数据集,如下表所示。最终,本文预训练所采用的数据集包含 60 多个领域的 100,707 段对话,1.3M 句话语。
TOD-BERT模型
TOD-BERT 在 BERT 模型原有的 MLM 损失函数上,添加了一个 Response contrastive loss(RCL)用于模