论文笔记:端到端的任务导向对话综述

论文标题:《End-to-end Task-oriented Dialogue: A Survey of Tasks, Methods, and Future Directions》

论文作者:Libo Qin等
发表会议:EMNLP 2023

0、摘要部分

端到端任务导向对话(EToD)可以不通过模块化训练直接生成响应,因此越来越受欢迎。深度神经网络的进步,尤其是大型预训练模型的成功应用,近年来进一步推动了EToD研究的发展。在本文中全面综述并提供统一视角来总结现有方法以及最近趋势,以推进EToD研究的发展。

1、介绍部分

面向任务的对话系统(ToD)可以通过自然语言交互帮助用户实现特定目标,例如预订餐厅或查询导航。该领域在学术研究和工业部署中都受到越来越多的关注。如下图所示:
在这里插入图片描述

(见图 1 (a))可知,传统的 ToD 系统采用包含四个相互连接的模块组件的流水线方法:①自然语言理解 (NLU),用于提取用户的意图和关键插槽;②对话状态跟踪 (DST),用于根据对话历史推断用户置信状态;③对话策略学习 (DPL),以确定下一步行动;④自然语言生成 (NLG),用于生成对话系统响应。
虽然之前的管道式(Pipiline)对话模型已经取得了显著成果,但仍然存在两个主要缺点:①由于每个模块(即 NLU、DST、DPL 和 NLG)都是单独训练的,因此管道式对话语义无法利用所有模块之间的共享知识;②管道式对话语义按顺序解决所有子任务,因此前一个模块中的错误会传播到后续模块,导致错误传播问题。为了解决这些问题,文献中占主导地位的模型转向端到端任务驱动对话(EToD)。传统管道式(Pipiline)对话语义与 EToD 方法的主要区别在于后者可以同时训练神经模型的所有四个组件(见图 1 (b)),或者通过统一的序列到序列框架直接生成系统响应(见图 1 ©)。
得益于深度学习方法的进步以及预训练模型的发展,最近几年在 EToD 研究中取得了显著的成功。然而,尽管取得了成功,仍然缺乏对近期方法和技术趋势的全面综述。为了填补这一空白,该文章首次尝试对该研究领域进行调查。根据是否需要中间监督或知识库检索可微分,提供了最近工作的统一分类,包括①模块化 EToD 和②完全 EToD 。这种分类可以覆盖所有类型的EToD,有助于研究人员全面跟踪EToD的进展。此外,该文章还提出了一些潜在的研究方向,并总结了挑战,希望为EToD领域提供新的见解并促进后续研究。本文的贡献可以概括为:

  1. 首次调查:首次对这个领域的研究进行了彻底的调查;
  2. 新分类法:首先引入了一个统一的EToD视角,包括 (i) 模块化EToD 和 (ii) 完全EToD ;
  3. 新前沿:讨论了一些潜在的前沿领域及其相应的挑战,希望激发EToD领域的突破性研究;
  4. 丰富的资源:作者建立了一个公共网站(https://www.etods.net/),包括开源实现、语料库和论文列表,EToD研究人员可以直接访问最近的进展。

2、背景部分

这一部分描述了模块化端到端任务导向对话(Modularly ETOD)和完全端到端任务导向对话 (Fully EToD)的定义。

2.1 模块化端到端任务导向对话(Modularly ETOD)

模块化端到端 (EToD) 通常通过子组件(例如对话状态跟踪、对话策略学习和自然语言生成)来生成系统响应。与传统的端到端不同,后者会单独训练每个组件(例如 DST、DPL 和 NLG),模块化的端到端以端到端的方式对所有组件进行训练,在此过程中同时优化所有组件的参数。
形式上,每个对话轮次由用户话语 u 和系统话语 s 组成。对于第 n 个对话轮次,模型观察到的对话历史为 H = (u_1, s_1), (u_2, s_2), …, (u_(n−1), s_(n−1)), u_n ,以及相应的知识库KB作为KB,它旨在预测一个系统响应s_n,记作S。
模块化EtoD首先读取对话历史H以生成置信状态B:
在这里插入图片描述

其中B由各种域中不同的槽值对(例如,price:cheap)组成。生成的置信状态B用于查询相应的KB以获得数据库查询结果D:
在这里插入图片描述

然后,H、B 和 D 用于决定对话动作 A。最后,模块化地,EToD 根据 H、B、D 和 A 生成最终的对话系统响应 S:
在这里插入图片描述

2.2 完全端到端任务导向对话 (Fully EToD)

相比于模块化EToD,完全EToD有两大区别:①模块化EToD利用生成的信念作为API查询KB,这是不可微分的。相比之下,完全EToD直接编码KB,并使用神经网络以可微分的方式查询KB。② 与需要模块注释(例如,DST、DPL注释)进行中间监督的模块化EToD不同,完全EToD只需提供对话历史和相应的KB就可以直接生成系统响应;
在这里插入图片描述

3、EToD的分类

本节根据新分类法描述了 EToD 的进展,包括模块化 EToD和完全 EToD。如下图所示:

在这里插入图片描述
在这里插入图片描述

3.1 模块化EToD

根据是否使用预训练模型,将模块化EToD进一步分为两个子类①无预训练模型的模块化EToD和②带预训练模型的模块化EToD

3.1.1 无预训练模型的模块化EToD(图3(a))

无预训练模型的模块化EToD使用两种方法来优化对话,①通过监督学习来优化整个对话,而②使用强化学习来进行优化:
1)监督学习:刘和兰恩首先提出了一个基于长短期记忆模型,该模型同时学习置信跟踪和知识库检索。温等人还提出了一种具有模块化设计的EToD模型,在每个模块中,它的潜在表示而不是预测标签被传递给下一个模块。雷等人引入了Sequicity,这是一种两阶段的CopyNet,它在序列到序列模型中合并了置信跟踪和响应生成。MOSS(梁等人,2019)通过NLU和DPL模块扩展了Sequicity以实现全面的对话监督。舒等人使用统一的seq2seq方法联合建模语言理解和状态跟踪任务,并为不同的插槽类型单独使用GRU。Mehri等人明确地将对话结构信息纳入EToD,提高了域的一般性。张等人考虑了在ToD中同一上下文下的多个适当响应,并通过平衡有效输出动作分布来改善对话策略多样性。LABES(张等,2020b)利用未标记的对话数据(即没有置信状态标签的数据)实现了ToD的半监督学习。
2)强化学习: 强化学习 (RL) 已被探索为监督学习在对话策略优化中的补充。 李等人表明使用 RL 优化的网络比 SL 设置产生更少的错误传播。 通过修改奖励或添加 SL 循环,SL 信号也已合并到 RL 框架中。像 LAVA(Lubis 等人,2020 年)、LaRL(赵等,2019 年)、CoGen(叶等,2022 年)和 HDNO(王等,2021 年)的方法探索了潜在表示的建模。有关具有人类干预的 RL 优化 EToD 训练的工作包括 HCNs(威廉姆斯等人,2017 年)、校正的人类模型预测(刘等人,2018 年;刘和莱恩,2018 年)以及确定最佳人类干预时间(Rajendran 等人,2019 年;王等人,2019 年)。

3.1.2 带预训练模型的模块化EToD(图3(b))

模块化 EToD 的主要 PLM(预训练模型) 流派有①仅解码器的 PLM和②编码器 - 解码器 PLM:
1)仅解码器的 PLM:一些工作使用 GPT-2 作为端到端模型的骨干。Budzianowski 和 Vulic´首次尝试使用预训练的 GPT 模型进行端到端对话,其中考虑了对话上下文、置信状态和数据库状态作为 GPT 模型的原始文本输入以生成最终系统响应。Wu 等人提出了两个独立的 GPT-2 模型,以有效地学习用户和系统话语分布。Hosseini-Asl等人提出了SimpleToD,通过端到端优化所有任务,将所有的对话子任务都转化为单一序列预测范式。Wang等人将面向任务的对话系统重新构造成自然语言生成任务。UBAR(Yang等人,2020b)采用了与SimpleTOD类似的架构。主要区别在于UBAR整合了所有对话轮次中的置信状态,而SimpleToD仅使用了最后一步的置信状态。
另一系列工作试图修改自回归变换器的预训练目标。为了达到这个目的,李等人在训练过程中以一定概率用随机干扰替代系统响应真实值,并利用下一个语句分类器来区分它们。Soloist提出了一个辅助任务,在该任务中,目标置信状态被替换为与不相关的样本中的信念状态,用于一致性预测。Kulhanek 等人通过提出一个新的对话一致性分类任务进一步扩展了 GPT-2。实验结果表明,这些更具挑战性的训练目标带来了显著的改进。
2)编码器 - 解码器 PLM:BART,T5和UniLM等具有编码器-解码器架构的 PLM 在EToD中也被探索了。MinTL考虑使用序列到序列模型训练 EToD,其中引入了两个不同的解码器来跟踪置信状态并预测响应。PPToD将 ToD 子任务重构成提示,并利用 T5的多任务迁移学习。黄等人(2022年)将知识库信息嵌入语言模型以实现隐式访问知识。
此外,另一系列工作为编码器-解码器变压器设计了独特的预训练目标。 Galaxy(何等人,2022年)引入了一个对话行为预测预训练任务以优化策略。 Godel (Peng et al., 2022) 利用了新的基于地面的预训练阶段,旨在提高适应能力。BORT(孙等,2022)在生成对话状态的基础上添加了去噪重构任务,以从原始上下文中重建对话状态。MTToD(李,2021)引入了一个句子预测预训练任务。SPACE-3(何等,2022a)通过使用UniLM主干网络,在GALAXY基础上进一步改进,其中五个预训练目标用于更好地理解面向任务的对话中的语义信息。最近,编码器 - 解码器预训练模型显示出了将EToD转换为其他任务形式(如QA)的潜力(田等,2022;谢等,2022)。

3.1.3 模型效果排行榜和总结

1)模型效果排行榜:模型在数据集 MultiWOZ2.0、MultiWOZ2.1 和 Camrest676 的效果排行榜如表 1 和表 2 所示:在这里插入图片描述在这里插入图片描述

由图可知:①在MultiWOZ2.0和MultiWOZ2.1数据集上,使用预训练模型的对话系统在成功率和综合得分上表现更好。这表明预训练模型有助于提高任务导向对话系统的性能。②在没有预训练模型的情况下,LAVA模型在MultiWOZ2.1数据集上表现最好;而在使用预训练模型的情况下,GALAXY和SPACE模型的综合得分最高。这说明不同模型在不同情况下的表现存在差异。③在CamRest676数据集上,使用预训练模型的模型在Match指标上表现更佳,尤其是SPACE3模型达到了97.7%的最高值。这可能表明预训练模型在处理特定数据集时能够更好地捕捉到实体匹配的准确性。
2)总结:如上所述,可以观察到以下几点:①从预训练模型中推断出的知识可以提高 EToD 的性能。②模块化EToD 可以使模型充分利用所有模块共享的知识。

3.2 完全 EToD(图3(c))

接下来,根据下图中显示的KB表示类描述了最近主导的完全EToD工作:
在这里插入图片描述

3.2.1 三元组表示法(图3(a))

具体来说,给定一个知识库(KB),三元组表示法将每个KB实体存储为 (subject, relation, object) 的形式。例如,所有三元组都可以表示为(第i 行的中心实体,第j 列的槽标题,第i 行在第 j列中的实体)。(例如,(Valero, Type, Gas Station))。
KB实体表示通过使用词袋方法对主语和关系的词嵌入求和来计算。它是表示KB最广泛使用的方法之一。具体来说,Eric 和 Manning (2017) 使用了一个键值检索机制来检索KB知识三元组。其他工作将KB和对话历史等同于三元组记忆。记忆网络(Sukhbaatar等人,2015)已被应用于建模与KB中相关实体三元组之间的依赖性,并提高了域扩展性。为了提高具有三元组KB表示的响应质量,Raghu等人(2019)提出了BOSS-NET以分离NLG和KB检索,Hong等人(2020)通过填充模板的解码器来生成响应。

3.2.2 行级表示法(图3(b))

虽然三元组表示法是一种直接的方法来表示知识库实体,但它忽略了同一行中实体之间的关系。为了解决这个问题,一些研究者对基于知识库的行级表示进行了研究。
特别是,KB-InfoBot(Dhingra等人,2017年)首先利用了KB行的概率分布。雷迪等人。(2018)提出了一种三步检索模型,该模型可以在第一步中选择相关的KB行。Wen等人使用实体相似性作为选择相关KB行的标准。秦等人采用两步检索过程,首先选择相关的KB行,然后选择相关的KB列。最近,曾等人建议将KB行和对话历史存储在两个独立的记忆中。

3.2.3 图形表示法(图3(c))

虽然行级表示法在性能方面取得了很有前途的结果,但它们忽视了知识库与对话历史之间的相关性。为了解决这个问题,一系列工作专注于通过密集连接对话历史中的实体和相应的槽标题来更好地上下文化知识库中的实体嵌入。这可以通过基于图的推理或注意力机制来实现,在这种情况下,实体表示充分意识到其他实体或对话背景。为此,杨等人通过在实体图上应用基于图形的多跳推理来实现实体上下文化。吴等人提出了一个基于图形的记忆网络,以产生对上下文敏感的表示。另一系列工作利用了Transformer架构来学习更好的实体表示,其中对话历史与KB之间的依赖关系是通过自注意力机制学习到的。

3.2.4 模型效果排行榜和总结

1)模型效果排行榜:模型在数据集SMD和Multi-WOZ2.1的效果排行榜如表 4 所示:
在这里插入图片描述

2)总结:从模块化到端到端,全端到端带来了两个主要优势:①人类注释工作量减少。模块化端到端仍然需要模块化的注释数据进行中间监督。相比之下,全端到端只需要对话响应对,可以大大减少人工注释的工作量;(2) 知识库检索端到端训练。与模块化端到端中不连续的知识库检索不同,全端到端可以在完全端到端的方式下优化知识库检索过程,从而提高知识库检索能力。

4、未来方向

4.1 用于任务导向对话(EToD)的大型语言模型(LLM)

最近,大语言模型(LLMs)因其在各种自然语言处理 (NLP) 基准测试中令人印象深刻的表现而受到广泛关注。这些模型能够执行预定的指令并与外部资源(如 API)进行交互和知识库。这使得 LLMs 成为端到端对话系统(EToD)的有希望的候选者。现有研究还探索了使用少量样本和零样本学习范式将 LLMs 应用于任务导向对话(ToD)场景。
然而,未来的研究中,EToD 还需要解决一些关键挑战。主要挑战如下:
1)安全性和风险缓解:像聊天机器人这样的LLMs有时会生成有害或有偏见的回答,引发严重的安全问题。提高它们的可控性和可解释性至关重要。一个有希望的方法是在训练期间整合人类反馈
2)复杂对话管理:小模型在处理复杂、多轮对话方面存在局限性。交互式故事生成器通常需要先进的语境建模和推理能力,这是改进的一个关键领域。
3)领域自适应:对于任务导向的对话, LLMs需要获得特定领域的知识。然而,简单地通过微调或提示来提供知识可能会导致灾难性遗忘或注意力偏差等问题。寻找一个平衡的方法来适应知识仍然是一个挑战。
除了这些挑战之外,还有出现的机会可以进一步增强 LLM 在端到端系统中的能力。 这些机会总结如下:
1)元学习与个性化: LLM 可以通过元学习算法快速适应少量示例。这为个性化的对话铺平了道路。
2)多模型协作与交互自学习:LLM的强大语言建模能力使从现实世界用户交互中进行自我学习成为可能。这可以推进合作、任务解决对话模型。

4.2 多 KB 配置

最近的EToD模型仅限于单KB设置,其中对话由一个单独的知识库支持,这与现实情况相去甚远。因此,在每个对话中为EToD赋予推理多个知识库的能力对于在现实世界中的部署至关重要。为此,秦等人(2023a)朝着多KB EToD迈出了一步。
多KB设置的主要挑战如下:①多个KB推理:如何在多个KB之间进行推理,以检索与对话生成相关的知识条目是一项独特的挑战;②KB可扩展性:当实际场景中的KB数量变得更大时,如何有效地在一个模型中表示所有KB是一项非平凡的任务。

4.3 全面 EToD 的预训练范式

预训练语言模型已经在开放域对话中取得了显著的成功。然而,很少有研究关注如何预先训练一个完整的EToD。我们认为阻碍预先训练完整EToD发展的主要原因是缺乏大量基于知识的对话用于预先训练。
端到端预训练中的核心挑战:①数据稀缺性:由于标注的知识库驱动对话数据稀缺,如何自动扩充大量训练数据是一个很有前途的方向;②任务特定预训练:与传统的通用掩码语言建模预训练目标不同,面向任务的对话系统的独特挑战在于如何进行知识库检索。因此,在预训练阶段如何注入知识库检索能力值得探索。

4.4 知识转移

随着传统管道任务导向对话系统的发展,出现了各种强大的模块化 ToD 模型,如 NLU,DST,DPL和 NLG。一个自然且有趣的研究问题是,如何从训练良好的模块化 ToD 模型中转移对话知识到模块化或完全的 EToD 中。
知识转移的主要挑战在于知识保存:如何平衡从之前的模块化对话模型中学习到的知识与当前数据,这是值得探索的一个有趣方向。

4.5 原理解释性

目前完全基于注意力机制(EToD)模型通过可微分注意力机制检索知识库。虽然这种方法很有吸引力,但它是一种黑盒检索方法,这使得分析知识库检索过程变得困难,可能会严重损害用户的信任。受魏等人(2022);张等人(2022)的启发,在完全基于注意力机制的知识推理中使用思维链是提高知识库检索可解释性的有希望的方向。
该方向的主要挑战在于设计推理步骤:如何提出适当的思维链(例如何时检索行,何时检索列)来表达知识库检索过程是一项非常繁琐的工作。

4.6 跨语言任务导向对话

当前的成功在很大程度上依赖于大量可用的高资源语言(例如英语)注释数据,这使得难以扩展到其他低资源语言。实际上,随着全球化的加速,面向任务的对话系统如谷歌主页和苹果Siri需要为世界各地、各种语言的多样化用户群提供服务,而这无法通过以前的单语对话来实现。因此,零样本跨语言方向从高资源语言向低资源语言转移知识是解决这一问题的一个有希望的方向。为此,林等人(2021年)和丁等人(2022年)介绍了BiToD和GlobalWoZ基准,以促进跨语言面向任务的对话。
零样本跨语言EToD的主要挑战包括:①知识库对齐:跨语言EToD的独特挑战之一是知识库(KB)对齐。如何有效地在不同语言之间对齐KB结构信息是一个有趣的调查研究问题;②统一的跨语言模型:由于不同的模块(如DST、DPL和NLG)具有异构的结构信息,因此如何构建一个统一的跨语言模型来对齐所有语言中异构输入对话的信息是一项挑战。

4.7 多模态端到端

当前的对话系统主要处理纯文本输入。实际上,我们通过多种模式(例如语言和图像)体验世界。因此,构建一个能够处理多种模式的多模态端到端系统是值得研究的重要方向。与传统的单模态对话系统不同,它可以由相应的知识库支持,多模态端到端需要知识库和图像特征来产生适当的响应。
多模态EToD的主要挑战如下:①多模态特征对齐与互补:如何有效地进行多模态特征对齐与互补,以更好地理解对话,这是多模态EToD的关键能力;②基准规模有限:基准规模有限公司:当前的多模式数据集,如MMConv和SIMMC 2.0,在大小和多样性方面都略显不足,这阻碍了多模式EToD的发展。因此,建立一个大型基准对于促进多模式EToD至关重要。

5、结论

该文章首次尝试通过介绍最近工作的新视角来总结端到端任务导向对话系统(EToD)的进展,包括模块化EToD 和完全EToD。此外,还讨论了该研究领域的一些新趋势及其挑战,希望在未来的研究中能取得更多突破。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值