论文标题:《End-to-end Task-oriented Dialogue: A Survey of Tasks, Methods, and Future Directions》
论文作者:Libo Qin等
发表会议:EMNLP 2023
0、摘要部分
端到端任务导向对话(EToD)可以不通过模块化训练直接生成响应,因此越来越受欢迎。深度神经网络的进步,尤其是大型预训练模型的成功应用,近年来进一步推动了EToD研究的发展。在本文中全面综述并提供统一视角来总结现有方法以及最近趋势,以推进EToD研究的发展。
1、介绍部分
面向任务的对话系统(ToD)可以通过自然语言交互帮助用户实现特定目标,例如预订餐厅或查询导航。该领域在学术研究和工业部署中都受到越来越多的关注。如下图所示:
(见图 1 (a))可知,传统的 ToD 系统采用包含四个相互连接的模块组件的流水线方法:①自然语言理解 (NLU),用于提取用户的意图和关键插槽;②对话状态跟踪 (DST),用于根据对话历史推断用户置信状态;③对话策略学习 (DPL),以确定下一步行动;④自然语言生成 (NLG),用于生成对话系统响应。
虽然之前的管道式(Pipiline)对话模型已经取得了显著成果,但仍然存在两个主要缺点:①由于每个模块(即 NLU、DST、DPL 和 NLG)都是单独训练的,因此管道式对话语义无法利用所有模块之间的共享知识;②管道式对话语义按顺序解决所有子任务,因此前一个模块中的错误会传播到后续模块,导致错误传播问题。为了解决这些问题,文献中占主导地位的模型转向端到端任务驱动对话(EToD)。传统管道式(Pipiline)对话语义与 EToD 方法的主要区别在于后者可以同时训练神经模型的所有四个组件(见图 1 (b)),或者通过统一的序列到序列框架直接生成系统响应(见图 1 ©)。
得益于深度学习方法的进步以及预训练模型的发展,最近几年在 EToD 研究中取得了显著的成功。然而,尽管取得了成功,仍然缺乏对近期方法和技术趋势的全面综述。为了填补这一空白,该文章首次尝试对该研究领域进行调查。根据是否需要中间监督或知识库检索可微分,提供了最近工作的统一分类,包括①模块化 EToD 和②完全 EToD 。这种分类可以覆盖所有类型的EToD,有助于研究人员全面跟踪EToD的进展。此外,该文章还提出了一些潜在的研究方向,并总结了挑战,希望为EToD领域提供新的见解并促进后续研究。本文的贡献可以概括为:
- 首次调查:首次对这个领域的研究进行了彻底的调查;
- 新分类法:首先引入了一个统一的EToD视角,包括 (i) 模块化EToD 和 (ii) 完全EToD ;
- 新前沿:讨论了一些潜在的前沿领域及其相应的挑战,希望激发EToD领域的突破性研究;
- 丰富的资源:作者建立了一个公共网站(https://www.etods.net/),包括开源实现、语料库和论文列表,EToD研究人员可以直接访问最近的进展。
2、背景部分
这一部分描述了模块化端到端任务导向对话(Modularly ETOD)和完全端到端任务导向对话 (Fully EToD)的定义。
2.1 模块化端到端任务导向对话(Modularly ETOD)
模块化端到端 (EToD) 通常通过子组件(例如对话状态跟踪、对话策略学习和自然语言生成)来生成系统响应。与传统的端到端不同,后者会单独训练每个组件(例如 DST、DPL 和 NLG),模块化的端到端以端到端的方式对所有组件进行训练,在此过程中同时优化所有组件的参数。
形式上,每个对话轮次由用户话语 u 和系统话语 s 组成。对于第 n 个对话轮次,模型观察到的对话历史为 H = (u_1, s_1), (u_2, s_2), …, (u_(n−1), s_(n−1)), u_n ,以及相应的知识库KB作为KB,它旨在预测一个系统响应s_n,记作S。
模块化EtoD首先读取对话历史H以生成置信