Nature DQN为什么会存在过估计？

最新推荐文章于 2024-05-04 01:12:12 发布

OsgoodWu

最新推荐文章于 2024-05-04 01:12:12 发布

阅读量5k

点赞数 5

分类专栏： robot 文章标签：神经网络强化学习 q-learning batch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/OsgoodWu/article/details/78923053

版权

robot 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

谈到过估计(overestimate)问题的时候，我们需要先交代一下背景，现在训练神经网络的时候，不是一张图一张图的进行训练，我们是通过一个batch一个batch去训练，每个batch里面包含了N张图，所以经常在看到别的网络参数的时候会有一个batch size的参数。

假设N=32，就是32张图分别经过CNN网络计算，然后计算出32个Loss，然后会把这32个Loss求和或者求平均转换成1个Loss，最后才使用back propagate更新网络的参数。

然后我们开始说为什么DQN会有overestimate的问题？
在更新网络的时候，DQN求得的Q值的公式为：

每次求得的Q target都是通过取max得到的，然而我们做的是需要对计算出来的Q值取平均之后才能更新我们的网络，我们都知道

可以看出，我们把N（设为32）个Q值先通过取max操作之后，然后求平均(期望)，会比我们先算出32个Q值取了期望之后再max要大。这就是overestimate的原因。

参考博客：
[1] DQN从入门到放弃6 DQN的各种改进 https://zhuanlan.zhihu.com/p/21547911

关注

5
点赞
踩
13

收藏

觉得还不错? 一键收藏
3
评论
Nature DQN为什么会存在过估计？

谈到过估计(overestimate)问题的时候，我们需要先交代一下背景，现在训练神经网络的时候，不是一张图一张图的进行训练，我们是通过一个batch一个batch去训练，每个batch里面包含了N张图，所以经常在看到别的网络参数的时候会有一个batch size的参数。假设N=32，就是32张图分别经过CNN网络计算，然后计算出32个Loss，然后会把这32个Loss求和或者求平均转换成1个L
复制链接

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。