《IMPACT: Importance Weighted Asynchronous Architectures With Clipped Target Networks》-----强化学习论文笔记

本文介绍了强化学习中的IMPACT方法,通过目标网络、循环缓冲区和有截断的重要性采样加速训练,提高离散和连续环境中的性能。与IMPALA相比,训练时间减少30%,同时保持与同步PPO相当的样本效率。
摘要由CSDN通过智能技术生成

abstract

强化学习agent的实际使用往往受到训练时间的限制。为了加速训练,从业者往往转向分布式强化学习架构来并行化及加速训练过程。在当前可扩展的架构中,随着样本吞吐量的增加,样本的学习效率往往会下降。
为解决这个问题,我们提出了IMPACT,从三个方面扩展了IMPALA:

  • 用于稳定代理目标的target network
  • 循环缓冲区
  • 有截断的重要性采样

结果:在离散环境中,获得了更高的奖励,与IMPALA相比,训练时间减少30%,在连续环境中,比现有的可扩展代理训练更快,同时保持同步PPO的样本效率(样本的学习质量)

introduction

本论文的主要贡献在于:

  1. 证明了异步收集经验数据时,引入一个target network可以使代理目标稳定,允许每批多个SGD步骤;
  2. 证明了使用循环缓冲区存储异步收集的经验数据可以在实时性能和样本效率之间进行平衡权衡;
  3. 证明了使用相同硬件和神经网络模型时,IMPACT在实时和时间步长效率方面都比同步PPO和IMPALA有提高。
    在这里插入图片描述
    (a) . 分布式PPO实现了同步数据收集方案,在进行数据收集前,workers 更新至 π o l d \pi_{old} πold, 将workers采样的数据汇集到一起(batch D t r a i n D_{train} Dtrain),learner在其上执行多次小批量的梯度步骤,一旦学习完成,learner将权重广播给所有workers, workers再重新开始采样。

(b) . learner线程发送ations, observations, values, 主线程计算并学习梯度。随着learner数量的增加,worker的policy开始偏离learner的policy,导致策略梯度失效,为了纠正偏差,IMPALA使用V-trace来纠正分布偏移。
在这里插入图片描述

© . IMPACT
在这里插入图片描述
在这里插入图片描述
采样与学习解耦,一开始,每个worker从主网络复制权重,然后用自己的策略收集数据。
在这里插入图片描述
在异步PPO中,有多种方法可以定义信任域:

  • π w o r k e r i \pi_{worker_{i}} πworker
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值