胜者的诅咒与double DQN

最近在学习博弈论和DQN时,无意中发现胜者的诅咒和DQN中过估计现象相通。特此记录。

胜者的诅咒

在这里插入图片描述
分析这个问题,假设每一个参与拍卖的买家对硬币数量的估计相互独立,并且都愿意出与他估计价值相当的价格。
在这里插入图片描述
在上图中,红线为物品的实际价值,左右分别为两次拍卖不同买家的出价。因为我们每次都使用“价高者得”的方式,所以最终成功拍走物品的“胜者”永远是心目中对物品估价越多的人。当买家数量较多时,几乎可以肯定,胜者一定是过高估计物品价值的人。(而且是过高估计得最离谱的那个)所以在这个模型中,胜者永远是在做亏本买卖。

DQN

在介绍Double-DQN之前,先回顾一下DQN。
在这里插入图片描述
我们先来复习回顾一下DQN的基本算法。右图是伪代码,不作赘述。
在左图中,在我们每个循环更新参数的update网络在左上角,输入当前状态S和需要评估价值的动作a,经过网络即可输出估计的Q值。最后和目标网络计算出的下一时刻的Q值加上当前时刻的回报r相比较,最小化两者之间的差值。并在N次网络参数迭代后,更新target网络的参数为当前update网络。

核心步骤在图中已经标出,在target估算价值时,使用的就是遍历所有动作并求出其中的最大值。
这和拍卖模型非常相似。也就是说,选出的每一步对价值都是过于乐观了,这导致最后对于动作价值的判断过于乐观。即,使用Q网络对动作的估计价值,往往远高于动作真实的价值。
也就是价值的过估计(overestimate)。使用Double DQN可以很大程度上解决这个问题。

Double DQN

参考论文:https://arxiv.org/pdf/1509.06461.pdf
在这里插入图片描述
上图展示了四个小游戏中,DQN和double DQN的对比。
不难看出,实际DQN对于动作价值的预估(estimate),远大于行动的真实价值(true value),也就是说DQN网络特别爱吹牛。而DoubleDQN基本上解决了这个问题。并且由于克服了过分乐观的缺点,实际训练出来行为的价值高于DQN,显得double DQN又强又谦虚。

那么这种又强又谦虚的网络是怎么训练的呢?
在这里插入图片描述
其实这个网络相比DQN并没有改变多少。只改变了一步:原本最优动作选择和最优动作价值都是用目标网络Target Network计算实现的,现在最优动作选择权交给了updateNetwork。如果我们假设两个网络相互独立,那么Target Network对这个最优动作价值的估计就是无偏的。即使可能某些时候会高估,但有时也会低估,最终就不会像原版的DQN一样一直高估。

反思回顾

无意中打通学科的壁垒其实是一件很爽的事情。比如本文的灵感就是用博弈论中的胜者的诅咒解释DQN中状态-动作价值高估。

另外在Double DQN中,价值估计是无偏的充要条件就是两个网络参数相互独立,但这其实是绝对不可能的一件事。因为每过N次迭代,target 网络参数就会被update 网络参数完全替换。也就是说,两个网络其实具有非常强的相似性。
进一步地,也就是说DQN容易高估价值的毛病其实并没有完全被解决。只是从“吹牛大王”级别,降到了“比较自信”级别。实际工程中,更正确地认识动作价值,确实也会一定程度上提高“策略”的强度。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

邵政道

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值