由于涉及复杂的动力学,为四足动物开发有效的运动策略对机器人技术提出了重大挑战。训练四足动物在现实世界中上下楼梯可能会损坏设备和环境。因此,模拟器在学习过程中在安全性和时间限制方面都发挥着关键作用。
利用深度强化学习 (RL) 在模拟环境中训练机器人可以更有效、更安全地执行复杂任务。然而,这种方法带来了一个新的挑战:如何确保在模拟中训练的策略无缝转移到现实世界。换句话说,我们如何缩小模拟与现实 (sim-to-real) 之间的差距?
缩小模拟与现实之间的差距需要高保真、基于物理的模拟器进行训练,高性能人工智能计算机(如NVIDIA Jetson)以及具有关节级控制的机器人。强化学习研究员套件是与波士顿动力公司、NVIDIA和人工智能研究所合作开发的,它将这些功能结合在一起,实现四足动物从虚拟世界到现实世界的无缝部署。它包括一个关节级控制 API,用于Spot 四足机器人控制机器人的移动方式,安装硬件用于 NVIDIA Jetson AGX Orin有效载荷以运行策略(AGX Orin 单独出售),以及NVIDIA Isaac Lab中 Spot 的模拟环境。
Isaac Lab 是一款轻量级参考应用程序,基于NVIDIA Isaac Sim平台构建,专门针对大规模机器人学习进行了优化。它利用基于 GPU 的并行化进行大规模并行物理模拟,以提高最终策略性能并减少机器人强化学习的训练时间。凭借其高保真物理和域随机化功能,Isaac Lab 弥合了模拟与现实之间的差距,实现了将训练好的模型无缝部署到物理机器人上,零样本。要了解更多信息,请参阅使用 NVIDIA Isaac Sim 4.0 和 NVIDIA Isaac Lab 通过 AI 和模拟增强机器人工作流程。
这篇文章解释了如何在 Isaac Sim 和 Isaac Lab 中为 Spot 创建运动 RL 策略,并使用 RL Researcher Kit 中的组件将其部署到硬件上。
在 Isaac Lab 中训练四足动物的运动能力
本节介绍如何在 Isaac Lab 中训练运动 RL 策略。
图 1. 从 Isaac Sim 到 Isaac Lab 的运动策略训练框架的工作流程
目标
训练 Spot 机器人在平坦地形上行走时跟踪目标 x、y 和偏航基准速度。
观察和行动空间
每次重置时目标速度都会随机化,并与图 1 中所示的其他观察结果一起提供。动作空间仅包括 12 个 DOF 关节位置,这些位置作为参考关节位置传递给低级关节控制器。
域随机化
各种参数在关键训练阶段都会被随机化,如图 1 中的随机化参数所示。这些随机化有助于模型确保在实际部署中的稳健性。此过程称为域随机化。
网络架构和 RL 算法细节
运动策略的结构为一个三层的多层感知器 (MLP),包含 [512, 256, 128] 个神经元,并使用RSL-rl的近端策略优化 (PPO) 算法进行训练,该算法针对 GPU 计算进行了优化。
先决条件
为了训练运动策略,您需要以下内容:
- 配备 NVIDIA RTX GPU 的系统。有关详细的最低规格,请参阅Isaac Sim 文档。
- NVIDIA Isaac Sim、Isaac Lab和RSL-rl。
用法
本节介绍如何训练策略、重放策略并检查结果。