Double-DQN算法target网络和predict网络区别

最新推荐文章于 2024-07-04 18:02:09 发布

nanfei_opt

最新推荐文章于 2024-07-04 18:02:09 发布

阅读量2.5k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nanfei_opt/article/details/108620584

版权

Double-DQN框架主要包括以下几部分：
构建eval神经网络和target神经网络模块
训练eval神经网络模块
更新target神经网络模块
根据eval值选择动作模块。

为了将动作选择和价值估计进行解耦，我们有了Double-DQN方法。在Double-DQN中，在计算Q实际值时，动作选择由eval-net得到，而价值估计由target-net得到。此时，损失函数变为：

DQN算法图如下：

这里存在两个Q值神经网络： predict神经网络和target神经网络。

1. target神经网络。作用：计算目标Q值。更新：间隔一段时间进行更新。目的：保持算法稳定性。

为了获得的Q值，Q值的更新依靠Reward和Q计算出来的目标Q值： [å¬å¼]

这里采用一个稳定的target神经网络进行Q值计算，也就是Q（s‘，a’，w）部分是target网络，从而保持算法的稳定性。

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。