- 论文链接:https://arxiv.org/pdf/1511.06581.pdf
- 论文题目:Dueling Network Architectures for Deep Reinforcement Learning
Dueling Network
Abstract
本文提出一种新的网络结构用于model-free强化学习。我们的对抗网络分别表达了两个估计量:一个是状态价值函数,一个是依附于状态的动作优势函数。这个因式分解的主要好处是在于对潜在的强化学习算法不施加任何改变的情况下,泛化了对于actions的学习。
1. Introduction
这里我们使用一种可替换的互补的方法来创新一种新的神经网络结构,更加适用于model-free RL。这个方法的好处在于新的网络可以与现存的未来的RL算法兼容。
该网络我们命名为dueling architecture,分别对state values和action advantages进行了表达。如图1,对抗网络有两个分支,同时共享同一个卷积特征学习模块。两个分支通过一个特殊的聚合层结合起来生成最终的state-action value function Q。
图1. 上面是单分支Q网络,下面是本文网络结构
直观上讲,对抗结构能够在脱离action影响下学习到哪个state是有价值的。这尤其在actions并不会对env产生影响的states有帮助,例如图2例子,就不重复赘述了。
2. Background
考虑一个序列制定决策步骤,一个agent在离散时间步上与env E \mathcal E E交互。在Atari领域中,例如,一个agent要理解一段包含M帧图像的视频 s t s_t st: s t = ( x t − M + 1 , . . . , x t ) ∈ S s_t=(x_{t-M+1},...,x_t) \in \mathcal S st=(xt−M+1,...,xt)∈S。agent从一个离散集合 a t ∈ A = { 1 , . . . , ∣ A ∣ } a_t \in \mathcal A=\{1,...,|\mathcal A|\} at∈A={
1,...,∣A∣}选择action,然后再从游戏模拟器中观察到reward r t r_t rt。
agent追求最大的期望折扣回报, R t = ∑ τ = t ∞ γ τ − t r τ R_t=\sum^\infty_{\tau=t}\gamma^{\tau-t}r_\tau Rt=∑τ=t∞γτ−trτ。
对于agent行为,我们有定义:
(1) Q π ( s , a ) = E [ R t ∣ s t = s , a t = a , π ] , V π ( s ) = E a ∼ π [ Q π ( s , a ) ] \begin{aligned} Q^{\pi}(s,a) &=\mathbb E[R_t|s_t=s,a_t=a,\pi],\\ V^{\pi}(s) &=\mathbb E_{a\thicksim\pi}[Q^{\pi}(s,a)] \tag 1 \end{aligned} Qπ(s,a)Vπ(s)=E[Rt∣st=s,at=a,π],=Ea∼π[Qπ<