论文笔记：端到端的任务导向对话综述

最新推荐文章于 2025-05-03 17:43:10 发布

员力LL

最新推荐文章于 2025-05-03 17:43:10 发布

阅读量1.1k

点赞数 29

文章标签：论文阅读 nlp 自然语言处理

本文链接：https://blog.csdn.net/sfgsdfg2516/article/details/140932847

版权

论文标题：《End-to-end Task-oriented Dialogue: A Survey of Tasks, Methods, and Future Directions》

论文作者：Libo Qin等
发表会议：EMNLP 2023

0、摘要部分

端到端任务导向对话（EToD）可以不通过模块化训练直接生成响应，因此越来越受欢迎。深度神经网络的进步，尤其是大型预训练模型的成功应用，近年来进一步推动了EToD研究的发展。在本文中全面综述并提供统一视角来总结现有方法以及最近趋势，以推进EToD研究的发展。

1、介绍部分

面向任务的对话系统（ToD）可以通过自然语言交互帮助用户实现特定目标，例如预订餐厅或查询导航。该领域在学术研究和工业部署中都受到越来越多的关注。如下图所示：
在这里插入图片描述

（见图 1 (a)）可知，传统的 ToD 系统采用包含四个相互连接的模块组件的流水线方法：①自然语言理解 (NLU)，用于提取用户的意图和关键插槽；②对话状态跟踪 (DST)，用于根据对话历史推断用户置信状态；③对话策略学习 (DPL)，以确定下一步行动；④自然语言生成 (NLG)，用于生成对话系统响应。
虽然之前的管道式（Pipiline）对话模型已经取得了显著成果，但仍然存在两个主要缺点：①由于每个模块（即 NLU、DST、DPL 和 NLG）都是单独训练的，因此管道式对话语义无法利用所有模块之间的共享知识；②管道式对话语义按顺序解决所有子任务，因此前一个模块中的错误会传播到后续模块，导致错误传播问题。为了解决这些问题，文献中占主导地位的模型转向端到端任务驱动对话（EToD）。传统管道式（Pipiline）对话语义与 EToD 方法的主要区别在于后者可以同时训练神经模型的所有四个组件（见图 1 (b)），或者通过统一的序列到序列框架直接生成系统响应（见图 1 ©）。
得益于深度学习方法的进步以及预训练模型的发展，最近几年在 EToD 研究中取得了显著的成功。然而，尽管取得了成功，仍然缺乏对近期方法和技术趋势的全面综述。为了填补这一空白，该文章首次尝试对该研究领域进行调查。根据是否需要中间监督或知识库检索可微分，提供了最近工作的统一分类，包括①模块化 EToD 和②完全 EToD 。这种分类可以覆盖所有类型的EToD，有助于研究人员全面跟踪EToD的进展。此外，该文章还提出了一些潜在的研究方向，并总结了挑战，希望为EToD领域提供新的见解并促进后续研究。本文的贡献可以概括为：

首次调查：首次对这个领域的研究进行了彻底的调查；
新分类法：首先引入了一个统一的EToD视角，包括 (i) 模块化EToD 和 (ii) 完全EToD ；
新前沿：讨论了一些潜在的前沿领域及其相应的挑战，希望激发EToD领域的突破性研究；
丰富的资源：作者建立了一个公共网站（https://www.etods.net/），包括开源实现、语料库和论文列表，EToD研究人员可以直接访问最近的进展。

2、背景部分

这一部分描述了模块化端到端任务导向对话（Modularly ETOD）和完全端到端任务导向对话 (Fully EToD)的定义。

2.1 模块化端到端任务导向对话（Modularly ETOD）

模块化端到端 (EToD) 通常通过子组件（例如对话状态跟踪、对话策略学习和自然语言生成）来生成系统响应。与传统的端到端不同，后者会单独训练每个组件（例如 DST、DPL 和 NLG），模块化的端到端以端到端的方式对所有组件进行训练，在此过程中同时优化所有组件的参数。
形式上，每个对话轮次由用户话语 u 和系统话语 s 组成。对于第 n 个对话轮次，模型观察到的对话历史为 H = (u_1, s_1), (u_2, s_2), …, (u_(n−1), s_(n−1)), u_n ，以及相应的知识库KB作为KB，它旨在预测一个系统响应s_n，记作S。
模块化EtoD首先读取对话历史H以生成置信

最低0.47元/天解锁文章