**任务型多轮对话系统**

任务型多轮对话系统

多轮对话需要用到以下技术:
1.自然语言理解(NLU)
2.对话状态跟踪(DST)
3.对话策略学习(DPL)
4.自然语言生成(NLG)

一、自然语言理解(NLU)
自然语言理解即将文本信息转换为机器可以理解的语义表示。
基于用户的输入,从中提取领域(domain)、意图(intention)和槽位(slots)等信息
输入:Xn代表用户输入的文本
输出:Un = (In, Zn),其中是In意图结果、Zn是槽位结果。

二、会话状态跟踪(DST):
对话状态定义:对话一个会话状态S_t,它包含知道前当前轮次t的对话历史的总结,S_t中包含了系统选择下一步action的所有信息。St一般都是槽位状态的分布。(意图也可以作为一种槽位状态)
会话状态跟踪就是根据所有的历史上下文信息,获得到当前轮的会话状态。
作用是根据领域(domain)/意图(intention) 、槽值对(slot-value pairs)、之前的状态以及之前系统的Action等来追踪当前状态。它的输入是Un(n时刻的意图和槽值对,也叫用户Action)、An-1(n-1时刻的系统Action)和Sn-1(n-1时刻的状态),输出是Sn(n时刻的状态)。
DST涉及到两方面内容:状态表示、状态追踪。另外为了解决领域数据不足的问题,DST还有很多迁移学习(Transfer Learning)方面的工作。比如基于特征的迁移学习、基于模型的迁移学习等。

DST常用的方法如下:
1.基于规则(Rule-based DST)
基于规则的方法一般是用1-best的结果作为输入,而且输出的状态也是确定型,基于规则的方法需要大量的人工和专家知识,因此在较复杂的场景适用性不强。当然基于规则的方法也有它的优点,基于规则的方法不依赖于对话数据,因此在没有对话数据的情况下很适合冷启动。基于规则的方法用N-best的结果作为输入也有研究,但总的来说实现起来很复杂。
2.生成式模型(Generative Models for DST)
生成式模型主要是利用贝叶斯网络推断来学得整个状态的概率分布,其通用表达式如下:
在这里插入图片描述
缺点:生成模型在效果上好于规则式方法,但是仍然无法完全利用所有有用的信息,原因就是其需要对所有特征之间的依赖关系进行精确建模,这是不现实的。而往往的做法是进行不必要的假设或者忽略对话历史中一些有用的信息。所以效果仍然无法满足需求。
3.判别式模型(Discriminative Models for DST)
在这里插入图片描述
缺点:判别式方法需要大量的标注数据用于训练==>multi domain learning + 迁移学习 + 无监督自适应方法。
4.深度学习模型(Deep Learning for DST)
对话状态和用户目标的表征。但是在具体建模中,我们直接会把对话状态细化为每个slot取值的概率分布。所以一般会对每个slot分别构建一个模型用于学习其概率分布,这样做的好处是将问题简化,方便使用深度学习的模型进行建模。

三、对话策略学习(DPL):
DPL也叫DPO(对话策略优化),跟DST一样,DPL也是对话管理(DM)的一部分,而DM是任务型对话中至关重要的一部分。
DPL基于当前状态(state)决定系统需要采取action。它的输入是Sn,输出是An。
另外为了解决领域数据不足的问题,DPL还有很多迁移学习(Transfer Learning)方面的工作。比如线性模型迁移学习、高斯过程迁移学习、BCM迁移学习等。

DPL常用方法如下:
1.监督学习方法
在我们做传统的基于状态机的多轮对话中,对话策略通常是监督学习方法(基于规则)。
2.强化学习方法
基于强化学习的训练主要是要考虑如何模拟一个用户,并且在关键时刻给予用户奖励(reward)

四、自然语言生成(NLG)
自然语言生成(NLG:Natural Language Generation)是整个任务型对话的最后一步,将机器语言转换为用户可以理解或者用户希望理解的文本形式。
输入:An,其中An是当前时刻DPL的输出
输出:Yn = fNLG(An),其中fNLG为自然语言生成的方法函数。

参考资料:
https://cloud.tencent.com/developer/article/1422620
https://zhuanlan.zhihu.com/p/679487747

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值