强化学习DQN算法流程

最新推荐文章于 2024-07-04 18:02:09 发布

Ashy咸鱼干

最新推荐文章于 2024-07-04 18:02:09 发布

阅读量6.2k

点赞数 4

分类专栏：强化学习RL 文章标签：强化学习深度学习

本文链接：https://blog.csdn.net/Ashyhaha/article/details/120624864

版权

强化学习RL 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

DQN（深度Q学习）、经验回放、固定Q目标迭代流程。

DQN简介
Deep Q Network(DQN)：是将神经网略（neural network）和Q-learning结合，利用神经网络近似模拟函数Q（s，a），输入是问题的状态，输出是每个动作a对应的Q值，然后依据Q值大小选择对应状态执行的动作，以完成控制。
在这里插入图片描述

DQN算法伪代码
在这里插入图片描述

以下是深度强化学习：深度Q网络DQN的迭代流程、其中增加了经验回放、固定Q目标等处理技巧
流程的关键点是：

1、该流程是一个横向展开流程，从左向右是时间轴上的逐步迭代。
2、流程中动作值函数的逼近方法使用的是神经网络模型（图中含NET的步骤，具体根据需要设计）。
3、除初始化环节，每个迭代循环分为两大步操作，以随机缓存区为分界，上部为采样环节（sample，提供新的数据），下部为学习环节（learn：选取小批量数据进行学习，优化网络参数）
4、该算法是离线策略（off-line），即使用了两个策略（策略π，策略max）分别完成探索和学习。
5、该算法使用了经验回放技巧，即将数据加载到随机缓存区（随机避免了时序关联的影响），并通过抽取小批量进行训练，使得历史数据得到有效利用。
6、该算法使用了固定Q目标的技巧，即采用了两个网络W、W-，在学习时通过网络W-来估算真值，通过网络W来进行优化，当满足一定条件后用网络W来更新网络W-，这样使得目标（真值）和预测值做了分离，有效减少振荡。
7、小批量采样后有多组样本，图中仅用s，a，r，s1做了简单代替，实际后续操作中是一个二维数组，实现中需要注意。
8、训练NET的本质是：通过梯度下降等方法调整系统参数W （更新网络W步骤），使得网络模型逼近真实动作值函数。
9、图中的策略π虽未改变，但是受网络调整的影响，再次使用时与上次使用的条件会发生差异，因此会间接发生改变。
10、迭代的结束标志此处未给出，一般是系统提示结束（到达了目标、或者边界），或者是达到了指定的迭代次数主动退出，取决于具体实现。
在这里插入图片描述
参考资料：
https://www.twblogs.net/a/5c2e5432bd9eee35b3a49109
https://www.cnblogs.com/jsfantasy/p/13623592.html
https://www.nature.com/articles/nature14236/
https://www.jianshu.com/p/42507aa63b05