Double DQN

最新推荐文章于 2024-04-14 11:01:28 发布

Jacob Jiang

最新推荐文章于 2024-04-14 11:01:28 发布

阅读量1k

点赞数

分类专栏： RL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42104932/article/details/107155555

版权

RL 专栏收录该内容

28 篇文章 4 订阅

订阅专栏

论文链接：https://arxiv.org/abs/1509.06461

由于深度神经网络提供了灵活的函数逼近与低渐近逼近误差的潜力，DQN 在 Atari 2600 游戏中的带来了更好的性能。但是，DQN有时也会大大高估行动的价值。使用 DQN的改进版本（Double DQN）能够产生更准确的值估计，减少 DQN 的过高估计，从而在游戏中获得更高的分数。

给定策略 $\pi$ ，在状态 s 采用动作 a 的真实值为：
在这里插入图片描述
标准 Q-learning 算法的参数更新方式：

DQN 的目标Y值为：
在这里插入图片描述
标准 Q-learning 和 DQN 的目标Y值计算中使用了 max 操作（公式2和3），其使用了相同的值来选择和估计动作。这使得它更有可能选择高估计的值，从而导致值的高估计。为了避免这种情况的发生，将选择动作和求值进行解耦。这就是 Double DQN 的核心。

Double DQN 使用行为网络选择出value最大的action，用目标网络来估计它的值。对应的，公式（2）的目标改写为：

在这里插入图片描述

Double DQN 的算法伪代码与 DQN 一致，仅仅是目标Y的公式进行了修改：
在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Double DQN

论文链接：https://arxiv.org/abs/1509.06461由于深度神经网络提供了灵活的函数逼近与低渐近逼近误差的潜力，DQN 在 Atari 2600 游戏中的带来了更好的性能。但是，DQN有时也会大大高估行动的价值。使用 DQN的改进版本（Double DQN）能够产生更准确的值估计，减少 DQN 的过高估计，从而在游戏中获得更高的分数。给定策略 π\piπ ，在状态 s 采用动作 a 的真实值为：标准 Q-learning 算法的参数更新方式：DQN 的目标Y值为：标准
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。