RL:强化学习在任务式对话领域的优势

一、强化学习与监督学习的区别

在这里插入图片描述
在这里插入图片描述

  1. 强化学习是通过与环境交互获取reward来更新agent网络参数的。
  2. 监督学习是通过已有的标签数据来更新agent网络参数的。
  3. 强化学习并不需要正确的“输入/输出对”数据,强化学习‘强’就是因为其训练过程不需要准备大量的带标签的训练样本,它重视的是环境给予的反馈,训练是一个交互学习的过程。
  4. 监督需要大量正确的“输入/输出对”数据,它重视的是teacher作出的评判,训练是一个老师指导学习的过程。

二、强化学习做任务式对话决策的优势
在这里插入图片描述
在这里插入图片描述

  1. 相比于监督学习,使用深度强化学习优化agent网络,使任务完成的成功率显著提高,对话轮数明显缩短[1]。
  2. 使用深度强化优化能提升agent的鲁棒性,以处理对话系统其它模块引入的噪声,例如NLU[2]。

引用:

  1. Bing Liu, Gokhan Tür, Dilek Hakkani-Tür, Pararth Shah and Larry Heck. End-to-End Optimization of Task-Oriented Dialogue Model with Deep Reinforcement Learning
  2. Xiujun Li, Yun-Nung Chen, Lihong Li, Jianfeng Gao and Asli Celikyilmaz. End-to-End Task-Completion Neural Dialogue Systems
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值