RECURRENT EXPERIENCE REPLAY IN DISTRIBUTED REINFORCEMENT LEARNING (R2D2)-CSDN博客

本文链接：https://blog.csdn.net/qq_29176963/article/details/106907958

R2D2采用了分布式框架和LSTM，作为model-free方法在Atari上实现了SOTA的效果。文章的主要贡献在于两个点：一是讨论了一下加入RNN之后对于强化学习的MDP时间序列训练方法的问题；另一个是自身的分布式较大规模训练框架。

文章目录

1. Introduction
2. BACKGROUND
- 2.1. REINFORCEMENT LEARNING
- 2.3. THE RECURRENT REPLAY DISTRIBUTED DQN AGENT
3. TRAINING RECURRENT RL AGENTS WITH EXPERIENCE REPLAY
References:

1. Introduction

RL最早的成功是利用replay buffer来提高数据效率并堆叠固定数量的连续帧来克服Atari 2600游戏中的部分可观性。但是，随着向越来越困难，部分可观的领域的发展，对更高级的基于内存的表示的需求增加，需要更多的原则性解决方案，如递归神经网络（RNNs）。在RL中使用LSTM的方法已被广泛采用，以克服部分可观性。

在本文中，我们研究了具有经验重播的RNN训练。我们有三个主要贡献。

首先，我们表明经验重播对参数滞后的影响，从而导致表示的漂移和循环状态陈旧。这在分布式训练环境中可能会加剧，并最终导致训练稳定性和性能下降。
其次，我们通过经验重放对RNN训练的几种方法的效果进行了实证研究，从而减轻了上述影响。
第三，我们介绍了一种agent，该agent整合了这些发现，在Atari-57上取得了重大进展，并与DMLab-30上的技术水平相匹配。

据我们所知，我们的方法，R2D2，是第一个使用单一网络架构和固定超参数集实现这一点的算法。

2. BACKGROUND

2.1. REINFORCEMENT LEARNING

定义部分可观马尔科夫决策过程的元组 $(S,A,R,T,\Omega,O)$ 。

$S$ 是状态集合；
$A$ 是行为集合；
$R:S\times A$ 是奖励函数；
$T:S\times A$ 是状态转换函数；
$\Omega$ 是agent可能接收到的观测的集合；
$O$ 是观察函数，将状态（未观察到）映射到观察值上的概率分布。

在这里插入图片描述

2.3. THE RECURRENT REPLAY DISTRIBUTED DQN AGENT

本文提出了算法R2D2，并用它来研究递归状态、经验重放和分布式训练之间的相互作用。R2D2与Ape-X最为相似，它建立在优先级分布式重放和n-step double Q-learning（n=5）的基础上，由大量actors（通常为256）产生经验，并由单个学习者从成批重放的经验中学习。与Ape-X一样，我们使用dueling network architecture，但在卷积堆栈之后提供一个LSTM层。

与常规的transition tuples $(s, a, r, s^{'})$ 不同，我们在重播中存储固定长度（m = 80）的 $(s, a, r)$ 序列，相邻序列彼此重叠40个时间步长，并且永远不会越过episode边界。训练时，我们在相同状态序列上同时展开online and target networks，以生成价值估算和目标。