Dueling Network

最新推荐文章于 2024-01-26 00:00:00 发布

mike112223

最新推荐文章于 2024-01-26 00:00:00 发布

阅读量3.8k

点赞数

分类专栏：强化学习从入门到放弃

论文链接：https://arxiv.org/pdf/1511.06581.pdf
论文题目：Dueling Network Architectures for Deep Reinforcement Learning

Dueling Network

Abstract

本文提出一种新的网络结构用于model-free强化学习。我们的对抗网络分别表达了两个估计量：一个是状态价值函数，一个是依附于状态的动作优势函数。这个因式分解的主要好处是在于对潜在的强化学习算法不施加任何改变的情况下，泛化了对于actions的学习。

1. Introduction

这里我们使用一种可替换的互补的方法来创新一种新的神经网络结构，更加适用于model-free RL。这个方法的好处在于新的网络可以与现存的未来的RL算法兼容。
该网络我们命名为dueling architecture，分别对state values和action advantages进行了表达。如图1，对抗网络有两个分支，同时共享同一个卷积特征学习模块。两个分支通过一个特殊的聚合层结合起来生成最终的state-action value function Q。
在这里插入图片描述
图1. 上面是单分支Q网络，下面是本文网络结构

直观上讲，对抗结构能够在脱离action影响下学习到哪个state是有价值的。这尤其在actions并不会对env产生影响的states有帮助，例如图2例子，就不重复赘述了。

2. Background

考虑一个序列制定决策步骤，一个agent在离散时间步上与env $\mathcal E$ 交互。在Atari领域中，例如，一个agent要理解一段包含M帧图像的视频 $s_t$ ： $s_t=(x_{t-M+1},...,x_t) \in \mathcal S$ 。agent从一个离散集合 $a_t \in \mathcal A=\{1,...,|\mathcal A|\}$ 选择action，然后再从游戏模拟器中观察到reward $r_t$ 。
agent追求最大的期望折扣回报， $R_t=\sum^\infty_{\tau=t}\gamma^{\tau-t}r_\tau$ 。
对于agent行为，我们有定义：
$\begin{aligned} Q^{\pi}(s,a) &=\mathbb E[R_t|s_t=s,a_t=a,\pi]，\\ V^{\pi}(s) &=\mathbb E_{a\thicksim\pi}[Q^{\pi}(s,a)] \tag 1 \end{aligned}$

最低0.47元/天解锁文章

mike112223

关注

0
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
Dueling Network

论文链接：https://arxiv.org/pdf/1511.06581.pdf论文题目：Dueling Network Architectures for Deep Reinforcement LearningDDQNAbstract本文提出一种新的网络结构用于model-free强化学习。我们的对抗网络分别表达了两个估计量：一个是状态价值函数，一个是依附于状态的动作优势函数。这个...
复制链接

扫一扫

专栏目录