RLlib算法

RLlib提供了多种高通量强化学习算法,包括分布式优先经验回放(Ape-X)、重要性加权演员-学习者架构(IMPALA)和异步近似策略优化(APPO)。Ape-X在DQN、DDPG和QMIX上表现出色,而IMPALA支持多个GPU和CPU worker,最大训练吞吐量可达30k转换每秒。此外,RLlib还涵盖梯度基、无导数和多智能体特定算法。
摘要由CSDN通过智能技术生成

1.High-throughput architectures(高通量的架构)

Distributed Prioritized Experience Replay (Ape-X)

Apex论文实现
DQN、DDPG和QMIX (APEX_DQN、APEX_DDPG、APEX_QMIX)的Ape-X变量使用一个GPU学习器和许多CPU worker来收集实验。实验收集可以扩展到数百个CPU worker,因为实验的分布式优先级高于存储在重播缓冲区。

Tuned examples: PongNoFrameskip-v4, Pendulum-v0, MountainCarContinuous-v0, {BeamRider,Breakout,Qbert,SpaceInvaders}NoFrameskip-v4.

Atari results @10M steps: more details
在这里插入图片描述
Scalability:
在这里插入图片描述
在这里插入图片描述
Ape-X 说明配置信息(详细信息请参考训练API

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值