《IMPACT: Importance Weighted Asynchronous Architectures With Clipped Target Networks》-----强化学习论文笔记

ksvtsipert

于 2021-07-20 16:41:11 发布

阅读量161

点赞数

分类专栏：强化学习论文笔记文章标签：强化学习

本文链接：https://blog.csdn.net/ksvtsipert/article/details/118935589

版权

本文介绍了强化学习中的IMPACT方法，通过目标网络、循环缓冲区和有截断的重要性采样加速训练，提高离散和连续环境中的性能。与IMPALA相比，训练时间减少30%，同时保持与同步PPO相当的样本效率。

摘要由CSDN通过智能技术生成

abstract

强化学习agent的实际使用往往受到训练时间的限制。为了加速训练，从业者往往转向分布式强化学习架构来并行化及加速训练过程。在当前可扩展的架构中，随着样本吞吐量的增加，样本的学习效率往往会下降。
为解决这个问题，我们提出了IMPACT，从三个方面扩展了IMPALA：

用于稳定代理目标的target network
循环缓冲区
有截断的重要性采样

结果：在离散环境中，获得了更高的奖励，与IMPALA相比，训练时间减少30%，在连续环境中，比现有的可扩展代理训练更快，同时保持同步PPO的样本效率（样本的学习质量）

introduction

本论文的主要贡献在于：

证明了异步收集经验数据时，引入一个target network可以使代理目标稳定，允许每批多个SGD步骤；
证明了使用循环缓冲区存储异步收集的经验数据可以在实时性能和样本效率之间进行平衡权衡；
证明了使用相同硬件和神经网络模型时，IMPACT在实时和时间步长效率方面都比同步PPO和IMPALA有提高。

(a) . 分布式PPO实现了同步数据收集方案，在进行数据收集前，workers 更新至 $\pi_{old}$ , 将workers采样的数据汇集到一起（batch $D_{train}$ )，learner在其上执行多次小批量的梯度步骤，一旦学习完成，learner将权重广播给所有workers, workers再重新开始采样。

(b) . learner线程发送ations, observations, values, 主线程计算并学习梯度。随着learner数量的增加，worker的policy开始偏离learner的policy，导致策略梯度失效，为了纠正偏差，IMPALA使用V-trace来纠正分布偏移。
在这里插入图片描述

$\pi_{worker_{i}}$

最低0.47元/天解锁文章

ksvtsipert

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《IMPACT: Importance Weighted Asynchronous Architectures With Clipped Target Networks》-----强化学习论文笔记

abstract强化学习agent的实际使用往往受到训练时间的限制。为了加速训练，从业者往往转向分布式强化学习架构来并行化及加速训练过程。在当前可扩展的架构中，随着样本吞吐量的增加，样本的学习效率往往会下降。为解决这个问题，我们提出了IMPACT，从三个方面扩展了IMPALA：用于稳定代理目标的target network循环缓冲区有截断的重要性采样结果：在离散环境中，获得了更高的奖励，与IMPALA相比，训练时间减少30%，在连续环境中，比现有的可扩展代理训练更快，同时保持同步PPO的样
复制链接

扫一扫