强化学习DQN算法流程

DQN(深度Q学习)、经验回放、固定Q目标迭代流程。

DQN简介
Deep Q Network(DQN):是将神经网略(neural network)和Q-learning结合,利用神经网络近似模拟函数Q(s,a),输入是问题的状态,输出是每个动作a对应的Q值,然后依据Q值大小选择对应状态执行的动作,以完成控制。
在这里插入图片描述

DQN算法伪代码
在这里插入图片描述

以下是深度强化学习:深度Q网络DQN的迭代流程、其中增加了经验回放、固定Q目标等处理技巧
流程的关键点是:

1、该流程是一个横向展开流程,从左向右是时间轴上的逐步迭代。
2、流程中动作值函数的逼近方法使用的是神经网络模型(图中含NET的步骤,具体根据需要设计)。
3、除初始化环节,每个迭代循环分为两大步操作,以随机缓存区为分界,上部为采样环节(sample,提供新的数据),下部为学习环节(learn:选取小批量数据进行学习,优化网络参数)
4、该算法是离线策略(off-line),即使用了两个策略(策略π策略max)分别完成探索和学习。
5、该算法使用了经验回放技巧,即将数据加载到随机缓存区(随机避免了时序关联的影响),并通过抽取小批量进行训练,使得历史数据得到有效利用。
6、该算法使用了固定Q目标的技巧,即采用了两个网络W、W-,在学习时通过网络W-来估算真值,通过网络W来进行优化,当满足一定条件后用网络W来更新网络W-,这样使得目标(真值)和预测值做了分离,有效减少振荡。
7、小批量采样后有多组样本,图中仅用s,a,r,s1做了简单代替,实际后续操作中是一个二维数组,实现中需要注意。
8、训练NET的本质是:通过梯度下降等方法调整系统参数W (更新网络W步骤),使得网络模型逼近真实动作值函数。
9、图中的策略π虽未改变,但是受网络调整的影响,再次使用时与上次使用的条件会发生差异,因此会间接发生改变。
10、迭代的结束标志此处未给出,一般是系统提示结束(到达了目标、或者边界),或者是达到了指定的迭代次数主动退出,取决于具体实现。
在这里插入图片描述
参考资料:
https://www.twblogs.net/a/5c2e5432bd9eee35b3a49109
https://www.cnblogs.com/jsfantasy/p/13623592.html
https://www.nature.com/articles/nature14236/
https://www.jianshu.com/p/42507aa63b05

  • 4
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一。它主要用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习的特点在于没有监督数据,只有奖励信号。 强化学习的常见模型是标准的马尔可夫决策过程(Markov Decision Process, MDP)。按给定条件,强化学习可分为基于模式的强化学习(model-based RL)和无模式强化学习(model-free RL),以及主动强化学习(active RL)和被动强化学习(passive RL)。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数(value function)算法两类。 强化学习理论受到行为主义心理学启发,侧重在线学习并试图在探索-利用(exploration-exploitation)间保持平衡。不同于监督学习和非监督学习,强化学习不要求预先给定任何数据,而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数。强化学习问题在信息论、博弈论、自动控制等领域有得到讨论,被用于解释有限理性条件下的平衡态、设计推荐系统和机器人交互系统。一些复杂的强化学习算法在一定程度上具备解决复杂问题的通用智能,可以在围棋和电子游戏中达到人类水平。 强化学习在工程领域的应用也相当广泛。例如,Facebook提出了开源强化学习平台Horizon,该平台利用强化学习来优化大规模生产系统。在医疗保健领域,RL系统能够为患者提供治疗策略,该系统能够利用以往的经验找到最优的策略,而无需生物系统的数学模型等先验信息,这使得基于RL的系统具有更广泛的适用性。 总的来说,强化学习是一种通过智能体与环境交互,以最大化累积奖励为目标的学习过程。它在许多领域都展现出了强大的应用潜力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值