RECURRENT EXPERIENCE REPLAY IN DISTRIBUTED REINFORCEMENT LEARNING (R2D2)

R2D2采用了分布式框架和LSTM,作为model-free方法在Atari上实现了SOTA的效果。文章的主要贡献在于两个点:一是讨论了一下加入RNN之后对于强化学习的MDP时间序列训练方法的问题;另一个是自身的分布式较大规模训练框架。


1. Introduction

RL最早的成功是利用replay buffer来提高数据效率并堆叠固定数量的连续帧来克服Atari 2600游戏中的部分可观性。但是,随着向越来越困难,部分可观的领域的发展,对更高级的基于内存的表示的需求增加,需要更多的原则性解决方案,如递归神经网络(RNNs)。 在RL中使用LSTM的方法已被广泛采用,以克服部分可观性。

在本文中,我们研究了具有经验重播的RNN训练。 我们有三个主要贡献。

  • 首先,我们表明经验重播对参数滞后的影响,从而导致表示的漂移和循环状态陈旧。 这在分布式训练环境中可能会加剧,并最终导致训练稳定性和性能下降。
  • 其次,我们通过经验重放对RNN训练的几种方法的效果进行了实证研究,从而减轻了上述影响。
  • 第三,我们介绍了一种agent,该agent整合了这些发现,在Atari-57上取得了重大进展,并与DMLab-30上的技术水平相匹配。

据我们所知,我们的方法,R2D2,是第一个使用单一网络架构和固定超参数集实现这一点的算法。

2. BACKGROUND

2.1. REINFORCEMENT LEARNING

定义部分可观马尔科夫决策过程的元组 ( S , A , R , T , Ω , O ) (S,A,R,T,\Omega,O) (S,A,R,T,Ω,O)

  • S S S是状态集合;
  • A A A是行为集合;
  • R : S × A R:S\times A R:S×A是奖励函数;
  • T : S × A T:S\times A T:S×A是状态转换函数;
  • Ω \Omega Ω是agent可能接收到的观测的集合;
  • O O O是观察函数,将状态(未观察到)映射到观察值上的概率分布。

在这里插入图片描述

2.3. THE RECURRENT REPLAY DISTRIBUTED DQN AGENT

本文提出了算法R2D2,并用它来研究递归状态、经验重放和分布式训练之间的相互作用。R2D2与Ape-X最为相似,它建立在优先级分布式重放和n-step double Q-learning(n=5)的基础上,由大量actors(通常为256)产生经验,并由单个学习者从成批重放的经验中学习。与Ape-X一样,我们使用dueling network architecture,但在卷积堆栈之后提供一个LSTM层。

与常规的transition tuples ( s , a , r , s ′ ) (s,a,r,s') (s,a,r,s)不同,我们在重播中存储固定长度(m = 80)的 ( s , a , r ) (s,a,r) (s,a,r)序列,相邻序列彼此重叠40个时间步长,并且永远不会越过episode边界。 训练时,我们在相同状态序列上同时展开online and target networks,以生成价值估算和目标。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值