Dueling Network

Dueling Network

Abstract

本文提出一种新的网络结构用于model-free强化学习。我们的对抗网络分别表达了两个估计量:一个是状态价值函数,一个是依附于状态的动作优势函数。这个因式分解的主要好处是在于对潜在的强化学习算法不施加任何改变的情况下,泛化了对于actions的学习。

1. Introduction

这里我们使用一种可替换的互补的方法来创新一种新的神经网络结构,更加适用于model-free RL。这个方法的好处在于新的网络可以与现存的未来的RL算法兼容。
该网络我们命名为dueling architecture,分别对state values和action advantages进行了表达。如图1,对抗网络有两个分支,同时共享同一个卷积特征学习模块。两个分支通过一个特殊的聚合层结合起来生成最终的state-action value function Q。
在这里插入图片描述
图1. 上面是单分支Q网络,下面是本文网络结构

直观上讲,对抗结构能够在脱离action影响下学习到哪个state是有价值的。这尤其在actions并不会对env产生影响的states有帮助,例如图2例子,就不重复赘述了。

2. Background

考虑一个序列制定决策步骤,一个agent在离散时间步上与env E \mathcal E E交互。在Atari领域中,例如,一个agent要理解一段包含M帧图像的视频 s t s_t st s t = ( x t − M + 1 , . . . , x t ) ∈ S s_t=(x_{t-M+1},...,x_t) \in \mathcal S st=(xtM+1,...,xt)S。agent从一个离散集合 a t ∈ A = { 1 , . . . , ∣ A ∣ } a_t \in \mathcal A=\{1,...,|\mathcal A|\} atA={ 1,...,A}选择action,然后再从游戏模拟器中观察到reward r t r_t rt
agent追求最大的期望折扣回报, R t = ∑ τ = t ∞ γ τ − t r τ R_t=\sum^\infty_{\tau=t}\gamma^{\tau-t}r_\tau Rt=τ=tγτtrτ
对于agent行为,我们有定义:
(1) Q π ( s , a ) = E [ R t ∣ s t = s , a t = a , π ] , V π ( s ) = E a ∼ π [ Q π ( s , a ) ] \begin{aligned} Q^{\pi}(s,a) &amp;=\mathbb E[R_t|s_t=s,a_t=a,\pi],\\ V^{\pi}(s) &amp;=\mathbb E_{a\thicksim\pi}[Q^{\pi}(s,a)] \tag 1 \end{aligned} Qπ(s,a)Vπ(s)=E[Rtst=s,at=a,π]=Eaπ[Qπ<

  • 0
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值