任务型对话对话策略学习的强化学习方法

最新推荐文章于 2024-09-01 23:06:50 发布

sam5198

最新推荐文章于 2024-09-01 23:06:50 发布

阅读量291

点赞数

分类专栏： AI人工智能文章标签：学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/elinkenshujuxian/article/details/131681831

版权

任务型对话(TOD)系统旨在帮助用户解决从天气咨询到计划安排的一系列问题。完成任务的途径有二。

其一是端到端途径：直接将当前对话内容与系统的自然语言反映相关联。此种方法多是采用序列到序列的模型，然后进行监督训练。

第二种是模组途径：将系统分为四个相互依存的的组成部分：自然语言理解(NLU)、对话状态追踪(DST)、对话策略学习(DPL)和自然语言生成(NLG)，如图1所示。

两种方法都有各自的优劣。端到端途径更灵活且对数据注释的需求更少。但却需要大量数据，且其黑盒结构完全不进行说明与控制。相反，模组途径更易理解和实施。尽管整个系统很难进行整体优化，但大部分商业对话系统都更倾向于管道途径。本文的研究也是对模组途径进行综述并总结对话策略学习的当前进展。文章会简单介绍管道途径四个模块的不同功能，然后对对话策略学习模块进行进一步说明。

四个模块中，NLU旨在将输入句子的意图和槽位识别为第一个直接与用户交互的模块。然后，DST将先前提取出的所有意图和槽位作为一个内部对话状态来呈现。接着，DPL模块根据输入的状态采取行动，来满足用户需求。最后，NLG模块将行动转变为自然语言形式并输出。在管道途径中，DPL是联系DST模块和NLG模块的中间纽带，直接关系到对话系统的成败，故相当重要。

当前，强化学习(RL)算法的发展极大推动了DPL研究的发展。列文等人(Levin et al.)是第一个把DPL当作马尔可夫决策过程(MDP)问题处理的团队。他们列出了将DPL建模为一个MDP问题的复杂度，并证明了将RL算法用于优化对话策略

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
任务型对话对话策略学习的强化学习方法

类似地，戴氏(Dai et al.)等人虽对对话管理的进展和挑战进行了综述，但由于其研究兴趣的涵盖面广，故其中涉及到有关DPL中RL方法的讨论相当有限。而且，RL对话系统在五个核心的RL要素，即环境、策略、状态、行动和奖励方面通常有不同的设置。在管道途径中，DPL是联系DST模块和NLG模块的中间纽带，直接关系到对话系统的成败，故相当重要。第二种是模组途径：将系统分为四个相互依存的的组成部分：自然语言理解(NLU)、对话状态追踪(DST)、对话策略学习(DPL)和自然语言生成(NLG)，如图1所示。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

sam5198 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。