Reward Estimation for Dialogue Policy Optimisation 阅读

最新推荐文章于 2021-11-22 18:59:23 发布

seeledu

最新推荐文章于 2021-11-22 18:59:23 发布

阅读量226

点赞数

分类专栏： dialogue system dialogue manager dialogue policy optimisation natural language process 文章标签： dialogue systems reinforcement learni deep learning reward estimation gaussian process

本文链接：https://blog.csdn.net/seeledu/article/details/80247034

版权

natural language process 同时被 3 个专栏收录

3 篇文章 0 订阅

订阅专栏

dialogue system

2 篇文章 0 订阅

订阅专栏

dialogue manager

1 篇文章 0 订阅

订阅专栏

Abstract

将对话管理看作是一个强化学习任务可以使得一个系统尝试最大化回报函数，从而优化行为。这个回报函数被设置为诱导系统动作满足目标应用和任务驱动应用，这一般意味着要尽可能地满足用户的目标。但是，在真实口语对话系统中，因为用户的目标一般只有他们自己知道，所以回报很难被衡量。当然，系统可以询问用户，问他们的目标是否达成，不过这会影响体验。而且，用户的反馈的正确度也被认为是经常变动的。这篇论文主要提出了两个方法，一个是利用循环神经网络(Recurrent Neural Network,RNN)作为任务完成度分析器。先从离线数据中进行训练，然后在线上测试时预测任务的完成度。另一个是一个在线学习的框架，这个框架是对话策略和回报函数共同训练的，这基于高斯过程(Gaussian process,GP)和主动学习(Active learning。这个高斯过程的操作是建立在对对话编码成同一维度的基础上。这个编码是在监督和无监督的不同变体上的RNN实现的。实验表明离线方法和在线方法的效果。这些方法也可以应用在真实在线交互的对话策略的训练。

将摘要粗略翻译了一遍，接下来会进行润色和修改。总的来说用了两处的RNN，一个是离线的任务完成度的训练，一个是对对话的编码。在线的方法应用了基于高斯过程的主动学习。并且在线上和线下的测试中都取得了不错的效果。

seeledu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Reward Estimation for Dialogue Policy Optimisation 阅读

这是本周5月7日到5月13日约定看完的，每看完一部份，就写一段简要翻译和感想摘录吧。希望能坚持下去。 Abstract将对话管理看作是一个强化学习任务可以使得一个系统尝试最大化回报函数，从而优化行为。这个回报函数被设置为诱导系统动作满足目标应用和任务驱动应用，这一般意味着要尽可能地满足用户的目标。但是，在真实口语对话系统中，因为用户的目标一般只有他们自己知道，所以回报很难被衡量。当然，
复制链接

扫一扫

专栏目录