【强化学习-12】Dueling netrwork (可以再DQN及其他地方)

Dueling netrwork -可以再DQN及其他地方

本笔记整理自 (作者: Shusen Wang):
https://www.bilibili.com/video/BV1rv41167yx?from=search&seid=18272266068137655483&spm_id_from=333.337.0.0

Advantage function (优势函数)

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

  • A ∗ ( s , a ) = Q ∗ ( s , a ) − V ∗ ( s ) A^{*}(s, a) = Q^{*}(s, a) - V^{*}(s) A(s,a)=Q(s,a)V(s)
  • 注意,这里 V ∗ ( s t ) = max ⁡ π V π ( s t ) = max ⁡ π E A [ Q π ( s t , A ) ] V^{*}(s_t) = \max_{\pi} V_{\pi}(s_t) = \max_{\pi} \mathbb{E}_{A} [Q_{\pi}(s_t, A)] V(st)=maxπVπ(st)=maxπEA[Qπ(st,A)]
  • 因此, V ∗ ( s ) V^{*}(s) V(s)是动作价值函数 Q π ( s , a ) Q_{\pi}(s, a) Qπ(s,a)在policy函数 π \pi π上求期望得来的
  • 根据定理 V ∗ ( s ) = max ⁡ a Q ∗ ( s , a ) V^{*}(s) = \max_{a}Q^{*}(s, a) V(s)=maxaQ(s,a),因此 V ∗ ( s ) ⩾ Q ∗ ( s , a ) V^{*}(s) \geqslant Q^{*}(s, a) V(s)Q(s,a)
  • 这里, V ∗ ( s ) V^{*}(s) V(s)相当于是baseline,而 A ∗ ( s , a ) A^{*}(s, a) A(s,a)就是action a a a相对于baseline的优势

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值