abstract
强化学习agent的实际使用往往受到训练时间的限制。为了加速训练,从业者往往转向分布式强化学习架构来并行化及加速训练过程。在当前可扩展的架构中,随着样本吞吐量的增加,样本的学习效率往往会下降。
为解决这个问题,我们提出了IMPACT,从三个方面扩展了IMPALA:
- 用于稳定代理目标的target network
- 循环缓冲区
- 有截断的重要性采样
结果:在离散环境中,获得了更高的奖励,与IMPALA相比,训练时间减少30%,在连续环境中,比现有的可扩展代理训练更快,同时保持同步PPO的样本效率(样本的学习质量)
introduction
本论文的主要贡献在于:
- 证明了异步收集经验数据时,引入一个target network可以使代理目标稳定,允许每批多个SGD步骤;
- 证明了使用循环缓冲区存储异步收集的经验数据可以在实时性能和样本效率之间进行平衡权衡;
- 证明了使用相同硬件和神经网络模型时,IMPACT在实时和时间步长效率方面都比同步PPO和IMPALA有提高。
(a) . 分布式PPO实现了同步数据收集方案,在进行数据收集前,workers 更新至 π o l d \pi_{old} πold, 将workers采样的数据汇集到一起(batch D t r a i n D_{train} Dtrain),learner在其上执行多次小批量的梯度步骤,一旦学习完成,learner将权重广播给所有workers, workers再重新开始采样。
(b) . learner线程发送ations, observations, values, 主线程计算并学习梯度。随着learner数量的增加,worker的policy开始偏离learner的policy,导致策略梯度失效,为了纠正偏差,IMPALA使用V-trace来纠正分布偏移。
© . IMPACT
采样与学习解耦,一开始,每个worker从主网络复制权重,然后用自己的策略收集数据。
在异步PPO中,有多种方法可以定义信任域:
- π w o r k e r i \pi_{worker_{i}} πworker