ddqn

最新推荐文章于 2024-07-04 18:02:09 发布

war3gu

最新推荐文章于 2024-07-04 18:02:09 发布

阅读量1.5k

点赞数

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/war3gu/article/details/90671413

版权

强化学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

发现并证明了传统的DQN普遍会过高估计Action的Q值，而且估计误差会随Action的个数增加而增加。如果高估不是均匀的，则会导致某个次优的Action高估的Q值超过了最优Action的Q值，永远无法找到最优的策略。作者在他2010年提出的Double Q-Learning的基础上，将该方法引入了DQN中。具体操作是对要学习的Target Q值生成方式进行修改，原版的DQN中是使用TargetNet产生Target Q值，即

TargetQ=r+γmaxa′Q(s′,a′;θ−i)

其中θ−i是TargetNet的参数。
在DDQN中，先用MainNet找到 maxa′Q(s′,a′;θi) 的Action（θi是MainNet的参数），再去TargetNet中找到这个Action的Q值以构成Target Q值，这个Q值在TargetNet中不一定是最大的，因此可以避免选到被高估的次优Action。最终要学习的Loss Function为：

L(θ)=E[(TargetQ−Q(s,a;θi))2]

TargetQ=r+γQ(s′,maxa′Q(s′,a′;θi);θ−i)

除此之外，其他设置与DQN一致。实验表明，DDQN能够估计出更准确出Q值，在一些Atari2600游戏中可获得更稳定有效的策略。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。