DQN和double DQN的区别

lamxueli

已于 2023-11-29 14:13:09 修改

阅读量1.1k

点赞数 15

文章标签： python pytorch

于 2023-11-29 09:42:29 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lamxueli/article/details/134682231

版权

参考文章：强化学习（三）：DQN、Nature DQN、Double DQN，附源码解读_wweweiweiweiwei的博客-CSDN博客

强化学习之DQN进阶的三大法宝（Pytorch）_dqnseg-CSDN博客

Q现实的计算方法：DQN的Q现实计算方法是将新的状态直接输入老的神经网络，返回最大的Q值。而Double DQN的Q现实计算方法则是利用新的神经网络将新的状态输入，得到Q最大值的action，再将此action作为旧的神经网络选择Q值的纵坐标。
Q_target的计算方法：DQN和Double DQN的Q_target计算方式也不同，具体来说，DQN会直接更新Q值，而Double DQN则不会立即更新Q值，而是将这个非目标值用于下一轮的目标值。

即采用了一种延迟更新方法。对于一个state选取当前Predict Q Network计算action，将此action带入Target Q Network计算Q值，再更新Q表

在DDQN中，second-level DQN（即目标网络）的更新主要是在一个单独的过程中进行的，而不是在每一步中实时更新。这个过程通常在每一定数量的步骤后进行一次，以避免网络的不稳定。

更新second-level DQN主要是比较eval_net的Q值和新状态的最大Q值。具体来说，当游戏进入一个新的状态s'时，second-level DQN会计算出这个状态的最大Q值，即目标Q值。这个目标Q值会被存储下来，并用于更新eval_net中对应行动的Q值。然而，second-level DQN本身并不直接进行更新。它的参数是在一个单独的过程中，通过比较eval_net的Q值和新状态的最大Q值来进行更新的。

具体来说，这个更新过程包括以下步骤：

存储目标Q值：当游戏进入一个新的状态s'时，second-level DQN会计算出这个状态的最大Q值，即目标Q值。这个目标Q值会被存储下来，用于之后的更新过程。
比较Q值：在一个单独的过程中，比较eval_net的Q值和新状态的最大Q值。这可以通过将新状态s'输入eval_net来得到eval_net的Q值。
更新second-level DQN参数：根据比较结果，更新second-level DQN的参数。具体来说，可以使用以下公式来更新second-level DQN的参数：

θ' = θ' + α * (θ - θ')

其中，θ'是second-level DQN的参数，θ是存储的目标Q值的均值，α是学习率。这个公式表示，second-level DQN的参数会被更新为当前参数加上一个误差项，这个误差项是当前参数与目标Q值的均值之间的差乘以学习率。

通过这样的更新过程，second-level DQN能够为eval_net提供更准确的目标Q值，从而帮助eval_net更好地学习游戏的最佳策略。同时，这种定期更新的方式也有助于保持网络的稳定性。

综上所述，本人对DDQN的理解为对于一个state先进行Q值计算，用该Q值eval_net得到action，再使用second-level DQN计算该action的Q来更新eval_net。最后n步后根据eval_net和second-level DQN更新second-level DQN。（不知道这样理解是否正确）

博客等级

码龄5年

7
原创

41
点赞

22
收藏

22
粉丝

关注

私信

热门文章

分类专栏

ros 2篇
robotiq 2篇

展开全部收起

上一篇：: robotiq力学传感器使用

下一篇：: UR3机械臂启动

最新评论

力学传感器静态标定
lamxueli: 采用了回归方法，最小化标定误差
UR3机械臂启动
lamxueli: 我也没有遇到过，以下是我的几个建议： 1、检查一下运行roslaunch的路径 2、重新下载官方版本的ur文件 3、检查你的ur是否适配（我用的是ur3，如果用其他版本ur可能出现问题） 4、https://blog.csdn.net/qq_42218376/article/details/129131843 https://blog.csdn.net/jartins/article/details/115407952
UR3机械臂启动
Gaben21: 您好，我在执行roslaunch ur_gazebo ur3_bringup.launch的时候加载不出模型，并且会输出这两行 libcurl: (35) OpenSSL SSL_connect: SSL_ERROR_SYSCALL in connection to fuel.gazebosim.org:443 libcurl: (35) OpenSSL SSL_connect: 连接被对方重设 in connection to fuel.ignitionrobotics.org:443 我的ros和ur机械臂等文件都是新配置的，请问应该如何解决呢
机械臂控制文件路径
CSDN-Ada助手: 恭喜用户写下了第四篇博客“机械臂控制文件路径”！您的持续创作精彩纷呈，不断探索新领域，实在令人钦佩。希望您在下一篇博客中可以深入探讨机械臂控制文件路径的实际应用，或者分享一些操作技巧和经验，这样更能吸引读者，也能够提升您的写作技巧。期待您的下一篇作品！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
DQN和double DQN的区别
CSDN-Ada助手: 非常棒的博文！你对DQN和double DQN的区别进行了清晰的解释，让读者能够更好地理解这两种方法的运作原理。希望你能继续分享更多关于强化学习和深度学习领域的知识。另外，除了延迟更新方法，你也可以探讨一下其他的优化技巧，比如经验回放（experience replay）和目标网络（target network），它们也对提升强化学习算法的性能有着重要的作用。期待你的下一篇博文！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。