【强化学习】深度强化学习：DQN（深度Q学习）、经验回放、固定Q目标迭代流程。

最新推荐文章于 2025-04-24 14:22:15 发布

Hua Zhu

最新推荐文章于 2025-04-24 14:22:15 发布

阅读量7.7k

点赞数 2

分类专栏：算法机器学习 Q-learning 强化学习 DQN 文章标签：机器学习增强学习 DQN 经验回放固定Q目标

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/JasonZhu_csdn/article/details/85677660

版权

算法同时被 3 个专栏收录

9 篇文章

订阅专栏

9 篇文章

订阅专栏

4 篇文章

订阅专栏

以下是深度强化学习：深度Q网络DQN的迭代流程、其中增加了经验回放、固定Q目标等处理技巧。

流程的关键点是：

1、该流程是一个横向展开流程，从左向右是时间轴上的逐步迭代。

2、流程中动作值函数的逼近方法使用的是神经网络模型（图中含NET的步骤，具体根据需要设计）。

3、除初始化环节，每个迭代循环分为两大步操作，以随机缓存区为分界，上部为采样环节（sample，提供新的数据），下部为学习环节（learn：选取小批量数据进行学习，优化网络参数）

4、该算法是离线策略（off-line），即使用了两个策略（策略pi，策略max）分别完成探索和学习。

5、该算法使用了经验回放技巧，即将数据加载到随机缓存区（随机避免了时序关联的影响），并通过抽取小批量进行训练，使得历史数据得到有效利用。

6、该算法使用了固定Q目标的技巧，即采用了两个网络W、W-，在学习时通过网络W-来估算真值，通过网络W来进行优化，当满足一定条件后用网络W来更新网络W-，这样使得目标（真值）和预测值做了分离，有效减少振荡。

7、小批量采样后有多组样本，图中仅用s，a，r，s1做了简单代替，实际后续操作中是一个二维数组，实现中需要注意。

8、训练NET的本质是：通过梯度下降等方法调整系统参数W (更新网络W步骤），使得网络模型逼近真实动作值函数。

9、图中的策略pi虽未改变，但是受网络调整的影响，再次使用时与上次使用的条件会发生差异，因此会间接发生改变。

10、迭代的结束标志此处未给出，一般是系统提示结束（到达了目标、或者边界），或者是达到了指定的迭代次数主动退出，取决于具体实现。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。