Double-DQN笔记

最新推荐文章于 2024-04-14 11:01:28 发布

显哥无敌

最新推荐文章于 2024-04-14 11:01:28 发布

阅读量421

点赞数

分类专栏：强化学习文章标签： RL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41696858/article/details/125492353

版权

强化学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

double-dqn是dqn比较著名的变种，他主要解决的一个问题是在之前的DQN公式中，我们用网络估计出来的Q值比Q值的实际值要高很多，也就是著名的过估计问题。
先说一下什么是过估计，看过张斯俊大神这一篇的就会知道
https://zhuanlan.zhihu.com/p/109498587
Q值最最最保真的值，也就是他的定义式，应该是由这个动作引发的直接一步后续所有可能状态的期望，但是我们不可能说等到所有状态都迭代好了以后再去求这个Q值。
所以在Q-Learning阶段我们就选用了下一个state最大Q值的那个动作来更新Q表，这也就是为啥会产生过估计。
也就是说这个过估计其实是Q-Learning带给它的，double-dqn做的是一个事情是它用target来求Q值，但这个选择的动作不由Q-target给，他由那个在实时学习的网络来给出Q值最大的动作，用Q-Target给出Q值，这样做的好处是经过迭代学习以后，Q-target和Q-估计选出的动作不是同一个动作，那么就一定概率上降低了过估计的问题。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Double-DQN笔记

double-dqn是dqn比较著名的变种，他主要解决的一个问题是在之前的DQN公式中，我们用网络估计出来的Q值比Q值的实际值要高很多，也就是著名的过估计问题。先说一下什么是过估计，看过张斯俊大神这一篇的就会知道https://zhuanlan.zhihu.com/p/109498587Q值最最最保真的值，也就是他的定义式，应该是由这个动作引发的直接一步后续所有可能状态的期望，但是我们不可能说等到所有状态都迭代好了以后再去求这个Q值。所以在Q-Learning阶段我们就选用了下一个state最大Q值
复制链接

扫一扫

专栏目录

显哥无敌 CSDN认证博客专家 CSDN认证企业博客

码龄7年

188: 原创

24万+: 周排名

34万+: 总排名

13万+: 访问

: 等级

2032: 积分

27: 粉丝

32: 获赞

53: 评论

94: 收藏

私信

关注

热门文章

分类专栏

最新评论

Dest0g3 520迎新赛 WEB EasySSTI
伏玉.: 这里使用的类是<class 'socketserver.BaseServer'> 也就是下标208对应的类名我还尝试了另外一个下标132对应的类名os._wrap_close 但是没有成功，可以成功读取到其中有popen函数但是执行命令时一直失败
电脑重启后自带键盘失灵而外接键盘有用的一种情况
2301_77816247: 重启那个PS2键盘没了咋办
DQN笔记
冰山三七分: dqn更准确是 online RL,offline policy吧
攻防世界 WEB filemanager
qq_52342740: 最后的oldname匹配到的并不是木马文件，而是原来上传的空文件。rename()函数匹配到的是木马文件
Dest0g3 520迎新赛 WEB EasySSTI
CSDN-Ada助手: 邀请你参加技能树有奖评测征文：https://bbs.csdn.net/topics/606838471?utm_source=AI_activity

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。