强化学习DQN算法流程

DQN(深度Q学习)、经验回放、固定Q目标迭代流程。

DQN简介
Deep Q Network(DQN):是将神经网略(neural network)和Q-learning结合,利用神经网络近似模拟函数Q(s,a),输入是问题的状态,输出是每个动作a对应的Q值,然后依据Q值大小选择对应状态执行的动作,以完成控制。
在这里插入图片描述

DQN算法伪代码
在这里插入图片描述

以下是深度强化学习:深度Q网络DQN的迭代流程、其中增加了经验回放、固定Q目标等处理技巧
流程的关键点是:

1、该流程是一个横向展开流程,从左向右是时间轴上的逐步迭代。
2、流程中动作值函数的逼近方法使用的是神经网络模型(图中含NET的步骤,具体根据需要设计)。
3、除初始化环节,每个迭代循环分为两大步操作,以随机缓存区为分界,上部为采样环节(sample,提供新的数据),下部为学习环节(learn:选取小批量数据进行学习,优化网络参数)
4、该算法是离线策略(off-line),即使用了两个策略(策略π策略max)分别完成探索和学习。
5、该算法使用了经验回放技巧,即将数据加载到随机缓存区(随机避免了时序关联的影响),并通过抽取小批量进行训练,使得历史数据得到有效利用。
6、该算法使用了固定Q目标的技巧,即采用了两个网络W、W-,在学习时通过网络W-来估算真值,通过网络W来进行优化,当满足一定条件后用网络W来更新网络W-,这样使得目标(真值)和预测值做了分离,有效减少振荡。
7、小批量采样后有多组样本,图中仅用s,a,r,s1做了简单代替,实际后续操作中是一个二维数组,实现中需要注意。
8、训练NET的本质是:通过梯度下降等方法调整系统参数W (更新网络W步骤),使得网络模型逼近真实动作值函数。
9、图中的策略π虽未改变,但是受网络调整的影响,再次使用时与上次使用的条件会发生差异,因此会间接发生改变。
10、迭代的结束标志此处未给出,一般是系统提示结束(到达了目标、或者边界),或者是达到了指定的迭代次数主动退出,取决于具体实现。
在这里插入图片描述
参考资料:
https://www.twblogs.net/a/5c2e5432bd9eee35b3a49109
https://www.cnblogs.com/jsfantasy/p/13623592.html
https://www.nature.com/articles/nature14236/
https://www.jianshu.com/p/42507aa63b05

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值