Nature DQN为什么会存在过估计?

谈到过估计(overestimate)问题的时候,我们需要先交代一下背景,现在训练神经网络的时候,不是一张图一张图的进行训练,我们是通过一个batch一个batch去训练,每个batch里面包含了N张图,所以经常在看到别的网络参数的时候会有一个batch size的参数。


假设N=32,就是32张图分别经过CNN网络计算,然后计算出32个Loss,然后会把这32个Loss求和或者求平均转换成1个Loss,最后才使用back propagate更新网络的参数。

然后我们开始说为什么DQN会有overestimate的问题?
在更新网络的时候,DQN求得的Q值的公式为:


每次求得的Q target都是通过取max得到的,然而我们做的是需要对计算出来的Q值取平均之后才能更新我们的网络,我们都知道


可以看出,我们把N(设为32)个Q值先通过取max操作之后,然后求平均(期望),会比我们先算出32个Q值取了期望之后再max要大。这就是overestimate的原因。

参考博客:
[1] DQN从入门到放弃6 DQN的各种改进 https://zhuanlan.zhihu.com/p/21547911

  • 5
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值