dqn 应用案例_深度强化学习在智能对话上的应用（附实例）

最新推荐文章于 2024-06-26 10:04:42 发布

第一千零一个人

最新推荐文章于 2024-06-26 10:04:42 发布

阅读量1.5k

点赞数

文章标签： dqn 应用案例

本文链接：https://blog.csdn.net/weixin_33213911/article/details/112931534

版权

本文介绍了深度强化学习（DQN）在任务型对话中的应用，探讨了强化学习与对话系统的结合，特别是DQN如何解决策略学习问题。文章通过订餐场景举例，解释了强化学习的组成部分和工作原理，并阐述了DQN在对话系统中的作用，包括构造标签、经验回放和双网络结构等关键点。最后，文章展示了DQN在任务型对话中的实验效果和潜在优化方向。

摘要由CSDN通过智能技术生成

来源：腾讯大数据本文约3500字，建议阅读7分钟。

本文为你介绍了深度强化学习在任务型对话上的应用。

背景本文主要介绍深度强化学习在任务型对话上的应用，两者的结合点主要是将深度强化学习应用于任务型对话的策略学习上，目前工业界普遍使用的策略都是基于规则的，显然基于规则的方法有人力成本高、泛化能力差等缺点，而强化学习恰好能解决这些问题，而且强化学习只需要一些目标，无需大量的训练语料，避免了深度学习的一大缺点。

首先简单介绍一下强化学习和对话系统，然后再具体介绍一下深度强化学习在任务型对话中是怎么应用的，最后给出训练的结果和总结。以下举例部分都会以订餐场景为准。强化学习强化学习系统由智能体(Agent)、状态(state)、奖赏(reward)、动作(action)和环境(Environment)五部分组成，如下图所示。Agent：智能体是整个强化学习系统核心。它能够感知环境的状态(State)，并且根据环境提供的奖励信号(Reward)，通过学习选择一个合适的动作(Action)，来最大化长期的Reward值。简而言之，Agent就是根据环境提供的Reward作为反馈，学习一系列的环境状态(State)到动作(Action)的映射，动作选择的原则是最大化未来累积的Reward的概率。选择的动作不仅影响当前时刻的Reward，还会影响下一时刻甚至未来的Reward，因此，Agent在学习过程中的基本规则是：如果某个动作(Action)带来了环境的正回报(Reward)，那么这一动作会被加强，反之则会逐渐削弱，类似于物理学中条件反射原理。

Environment：环境会接收Agent执行的一系列的动作(Action)，并且对这一系列的动作的好坏进行评价，并转换成一种可量化的(标量信号)Reward反馈给Agent，而不会告诉Agent应该如何去学习动作。Agent只能靠自己的历史(History)经历去学习。同时，环境还像Agent提供它所处的状态(State)信息。

Reward：环境提供给Agent的一个可量化的标量反馈信号，用于评价Agent在某一个时间步所做action的好坏。强化学习就是基于一种最大化累计奖赏假设：强化学习中，Agent进行一系列的动作选择的目标是最大化未来的累计奖赏。

State：状态指Agent所处的环境信息，包含了智能体用于进行Action选择的所有信息，它是历史(History)的一个函数：St = f(Ht)。

可见，强化学习的主体是Agent和环境Environment。Agent为了适应环境，做出的一系列的动作，使最终的奖励最高，同时在此过程中更新特定的参数。实际上可以把强化学习简单理解成是一种循环，具体的工作方式如下：智能体从环境中获取一个状态St࿱

最低0.47元/天解锁文章

第一千零一个人

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
dqn 应用案例_深度强化学习在智能对话上的应用（附实例）

来源：腾讯大数据本文约3500字，建议阅读7分钟。本文为你介绍了深度强化学习在任务型对话上的应用。背景本文主要介绍深度强化学习在任务型对话上的应用，两者的结合点主要是将深度强化学习应用于任务型对话的策略学习上，目前工业界普遍使用的策略都是基于规则的，显然基于规则的方法有人力成本高、泛化能力差等缺点，而强化学习恰好能解决这些问题，而且强化学习只需要一些目标，无需大量的训练语料，避免了深度学习的一大缺...
复制链接

扫一扫