RL:《End-to-End Optimization of Task-Oriented DialogueModel with Deep Reinforcement Learning》论文研读记录

论文地址:https://arxiv.org/abs/1711.10712
论文主要研究如何通过深度强化学习策略与监督学习训练出来的模型交互来优化模型参数。监督学习模型主要是通过已有带标签数据训练出来的,模型参数优化主要是通过和用户交互进行优化。本文几个亮点:
A. 基于深度强化学习对模型的优化提升了对话任务完场的成功率和缩短了对话论述相比于监督学习没有优化的模型。
B. 使用LSTM对当前第K turn user utterance和上一轮agent执行action进行编码的到状态Sk,之后Sk进过一个MLP以及softmax为所有goal slots计算概率分布达到自动填槽效果,通过网络进行对话状态追踪。 在这里插入图片描述
C. 论文结构图如下:
在这里插入图片描述
D. 论文的几个优化目标函数,参数更新的依据:
在这里插入图片描述
这个函数包含两项,前一项是对话转态追踪网络的目标函数,后一项监督学习网络agent预测action的目标 。
在这里插入图片描述
这个函数是deep-RL优化模型时的目标函数。类似policy gradient算法的目标函数。
思考:是否可以借鉴这种思路在rasa tracker进行对话追踪的过程中使用网络进行自动填槽,进行状态跟新,以此减少action 服务的逻辑工作。是否可以在rasa 做inference时候(即与用户交互时候)添加这种对已有模型的优化策略。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值