【DQN高级技巧3】Dueling Network

回顾

折扣回报
动作价值函数
状态价值函数
在这里插入图片描述
最优动作价值函数
最优状态价值函数
在这里插入图片描述

优势函数

定义
在这里插入图片描述
表示动作a相对于baseline V ∗ V^* V的优势,动作越好,优势越大
性质
在这里插入图片描述
在定义式两边关于a做最大化,式子依然成立,又带入性质1得到 m a x A ∗ ( s , a ) = 0 maxA^*(s,a)=0 maxA(s,a)=0

在这里插入图片描述
再由定义式出发,移项得
在这里插入图片描述
带入刚刚推导的 m a x A ∗ ( s , a ) = 0 maxA^*(s,a)=0 maxA(s,a)=0,得到性质2
在这里插入图片描述

Dueling Network

回顾DQN

在这里插入图片描述
DQN用神经网络对 Q ∗ Q^* Q做近似,这里我们不对 Q ∗ Q^* Q做近似,我们对 A ∗ A^* A做近似,网络结构不变
在这里插入图片描述
再用一个网络近似 V ∗ V^* V,其输出式一个实数,可以和 A ∗ A^* A的网络共享卷积层。
在这里插入图片描述
此时搭建Dueling Network
它跟DQN作用相同,表示相同,都是最优动作价值函数的近似
在这里插入图片描述
训练过程也和DQN完全一样,都是TD算法。

为什么要加 m a x A maxA maxA这一项

为了解决不唯一性的问题
在这里插入图片描述
等式1存在不唯一性的问题:若两个网络都有波动,但波动恰好抵消,则输出无影响。

但添加最大化项可以解决这个问题
将最大化项换为平均项,效果会更好(经验结论)
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值