abstract 去中心化分布式PPO(DD-PPO) 是一种在资源密集型模拟环境中进行分布式强化学习的方法,在Hatitat-Sim上表现出近线性的扩展——通过串行在128个GPU上实现了107倍加速。 code video introduction 不同于gym和Atari, 3D simulator需要GPU加速,因此worker的数量通常有限制( 2 5 2^5 25- 2 8 2^8 28vs 2 12 2^{12} <