R2D2采用了分布式框架和LSTM,作为model-free方法在Atari上实现了SOTA的效果。文章的主要贡献在于两个点:一是讨论了一下加入RNN之后对于强化学习的MDP时间序列训练方法的问题;另一个是自身的分布式较大规模训练框架。
文章目录
1. Introduction
RL最早的成功是利用replay buffer来提高数据效率并堆叠固定数量的连续帧来克服Atari 2600游戏中的部分可观性。但是,随着向越来越困难,部分可观的领域的发展,对更高级的基于内存的表示的需求增加,需要更多的原则性解决方案,如递归神经网络(RNNs)。 在RL中使用LSTM的方法已被广泛采用,以克服部分可观性。
在本文中,我们研究了具有经验重播的RNN训练。 我们有三个主要贡献。
- 首先,我们表明经验重播对参数滞后的影响,从而导致表示的漂移和循环状态陈旧。 这在分布式训练环境中可能会加剧,并最终导致训练稳定性和性能下降。
- 其次,我们通过经验重放对RNN训练的几种方法的效果进行了实证研究,从而减轻了上述影响。
- 第三,我们介绍了一种agent,该agent整合了这些发现,在Atari-57上取得了重大进展,并与DMLab-30上的技术水平相匹配。
据我们所知,我们的方法,R2D2,是第一个使用单一网络架构和固定超参数集实现这一点的算法。
2. BACKGROUND
2.1. REINFORCEMENT LEARNING
定义部分可观马尔科夫决策过程的元组 ( S , A , R , T , Ω , O ) (S,A,R,T,\Omega,O) (S,A,R,T,Ω,O)。
- S S S是状态集合;
- A A A是行为集合;
- R : S × A R:S\times A R:S×A是奖励函数;
- T : S × A T:S\times A T:S×A是状态转换函数;
- Ω \Omega Ω是agent可能接收到的观测的集合;
- O O O是观察函数,将状态(未观察到)映射到观察值上的概率分布。
2.3. THE RECURRENT REPLAY DISTRIBUTED DQN AGENT
本文提出了算法R2D2,并用它来研究递归状态、经验重放和分布式训练之间的相互作用。R2D2与Ape-X最为相似,它建立在优先级分布式重放和n-step double Q-learning(n=5)的基础上,由大量actors(通常为256)产生经验,并由单个学习者从成批重放的经验中学习。与Ape-X一样,我们使用dueling network architecture,但在卷积堆栈之后提供一个LSTM层。
与常规的transition tuples ( s , a , r , s ′ ) (s,a,r,s') (s,a,r,s′)不同,我们在重播中存储固定长度(m = 80)的 ( s , a , r ) (s,a,r) (s,a,r)序列,相邻序列彼此重叠40个时间步长,并且永远不会越过episode边界。 训练时,我们在相同状态序列上同时展开online and target networks,以生成价值估算和目标。