在配备 i9-10980XE CPU(18 核、36 线程)和 1 个 NVIDIA Titan RTX GPU 的单个工作站上进行训练的。 该代码采用 9 个远程训练节点,其中 4 个通过 ODrM* 的模仿学习计算梯度,而另外 5 个使用最新策略运行纯 RL 训练。 这些数字的选择是通过实验进行的,以保持 RL 与 IL 发作的比率接近 50%。
PRIMAL2训练环境
最新推荐文章于 2024-06-14 20:43:21 发布
在配备 i9-10980XE CPU(18 核、36 线程)和 1 个 NVIDIA Titan RTX GPU 的单个工作站上进行训练的。 该代码采用 9 个远程训练节点,其中 4 个通过 ODrM* 的模仿学习计算梯度,而另外 5 个使用最新策略运行纯 RL 训练。 这些数字的选择是通过实验进行的,以保持 RL 与 IL 发作的比率接近 50%。