摘要:自动摔倒恢复是人形机器人实现可靠部署的关键前提。手动设计起身控制器很困难,因为人形机器人在摔倒后可能呈现多种姿态,并且人形机器人预期要在具有挑战性的地形上运行。本文开发了一种学习框架,以生成能够使人形机器人在不同地形上从不同姿态起身的控制器。与之前人形机器人行走学习的成功应用不同,起身任务涉及复杂的接触模式,这要求准确建模碰撞几何形状,并且奖励信号更加稀疏。我们通过一种遵循课程的两阶段方法来应对这些挑战。第一阶段侧重于在平滑性或速度/扭矩限制的最小约束下,发现一种良好的起身轨迹。第二阶段则将发现的动作优化为可部署的(即平滑且缓慢)动作,这些动作对初始姿态和地形的变化具有鲁棒性。我们发现,这些创新使得真实的G1人形机器人能够从我们考虑的两种主要情况中起身:a) 仰卧;b) 俯卧,这两种情况均在平坦、可变形、光滑的表面和斜坡上进行了测试(例如,松软的草地和雪地)。据我们所知,这是首次在真实世界中成功演示了人形机器人学习到的起身策略。项目页面:HumanUPHuggingface链接:Paper page,论文链接:2502.12152
本文提出了一种基于强化学习的框架,旨在使现实世界中的人形机器人能够从不同姿态和不同地形上自动起身。这一研究对于提高人形机器人的自主性和实用性具有重要意义,特别是在需要机器人在复杂环境中工作的场景下。以下是对本文核心内容的详细总结。
- 引言与背景:
- 自动摔倒恢复的重要性:自动摔倒恢复是人形机器人实现可靠部署的关键前提。由于人形机器人在执行任务时可能面临各种不可预测的情况,如地面不平、障碍物碰撞等,导致机器人摔倒。因此,机器人需要具备自动起身的能力,以便在摔倒后能够继续执行任务。
- 起身控制的挑战:手动设计起身控制器面临巨大挑战。首先,人形机器人在摔倒后可能呈现多种姿态,如仰卧、俯卧、侧卧等,每种姿态都需要不同的起身策略。其次,人形机器人预期要在具有挑战性的地形上运行,如草地、雪地、斜坡等,这些地形对起身动作的稳定性提出了更高要求。
- 研究现状:之前的研究主要集中在人形机器人的行走学习上,并取得了显著成果。然而,起身任务与行走任务存在显著差异,起身任务涉及更复杂的接触模式和碰撞几何形状,且奖励信号更加稀疏。
- 研究目的与方法:
- 研究目的:本文旨在开发一种学习框架,以生成能够使人形机器人在不同地形上从不同姿态起身的控制器。
- 方法概述:本文提出了一种基于强化学习的两阶段方法。第一阶段侧重于在平滑性或速度/扭矩限制的最小约束下,发现一种良好的起身轨迹。第二阶段则将发现的动作优化为可部署的、平滑且缓慢的动作,这些动作对初始姿态和地形的变化具有鲁棒性。
- HUMAN UP系统概述:
- 系统架构:HUMAN UP系统包括两个主要部分:发现策略和部署策略。发现策略在第一阶段学习,用于发现起身轨迹;部署策略在第二阶段学习,用于优化和部署起身动作。
- 强化学习模型:两个策略模型均采用多层感知机(MLP)实现,并通过近端策略优化(PPO)算法进行训练。输入包括机器人的本体感觉信息和环境外部潜在变量,输出为机器人的动作。
- 奖励设计:奖励函数在发现策略和部署策略中有所不同。发现策略主要关注任务奖励,如身高、接触力等,以快速发现起身轨迹。部署策略则在此基础上增加了控制正则化奖励,如动作平滑性、关节速度惩罚等,以确保动作的可部署性。
- 两阶段学习方法:
- 第一阶段:发现策略学习。在第一阶段,系统使用简化的碰撞网格和固定的初始姿态进行训练,以快速发现起身轨迹。同时,系统采用较弱的控制正则化,以允许发现不平滑或高速的动作。
- 第二阶段:部署策略学习。在第二阶段,系统使用完整的碰撞网格和随机的初始姿态进行训练,以增强策略的泛化能力。同时,系统采用较强的控制正则化,以优化动作的平滑性和速度,使其适用于真实世界的部署。
- 课程学习:两阶段学习方法本质上是一种课程学习。第一阶段学习相对简单的任务,第二阶段则逐渐增加任务的难度和复杂性。这种课程学习有助于系统逐步掌握起身技能。
- 实验与结果:
- 仿真实验:本文在Isaac Gym仿真环境中进行了大量仿真实验,以验证HUMAN UP系统的有效性。实验结果表明,HUMAN UP系统能够成功学习起身策略,并在不同地形和初始姿态下表现出良好的性能。
- 真实世界实验:本文还将HUMAN UP系统部署到真实的G1人形机器人上进行测试。实验结果表明,HUMAN UP系统能够使G1人形机器人从仰卧和俯卧两种姿态下成功起身,并在平坦、可变形、光滑的表面和斜坡上表现出良好的稳定性。
- 与基线方法的比较:本文还将HUMAN UP系统与几种基线方法进行了比较。实验结果表明,HUMAN UP系统在任务成功率、动作平滑性和安全性等方面均优于基线方法。
- 关键技术创新:
- 两阶段学习方法:通过两阶段学习方法,系统能够逐步掌握起身技能,并在第二阶段通过控制正则化优化动作的可部署性。
- 课程学习:通过课程学习,系统能够逐步增加任务的难度和复杂性,从而提高学习的效率和效果。
- 强化学习模型与奖励设计:本文采用了适合起身任务的强化学习模型和奖励设计,使得系统能够快速发现起身轨迹,并优化动作的平滑性和速度。
- 局限性与未来工作:
- 局限性:尽管HUMAN UP系统在人形机器人起身任务中取得了显著成果,但仍存在一些局限性。例如,系统依赖于高性能的物理仿真平台来模拟接触丰富的任务;强化学习过程是一个欠指定问题,难以确保学习到的动作与人类行为完全一致。
- 未来工作:针对上述局限性,未来的工作可以集中在以下几个方面:开发更准确的物理仿真平台以提高接触动力学模拟的准确性和效率;探索结合人类演示或先验知识的方法来指导强化学习过程;将HUMAN UP系统扩展到更多类型的人形机器人和更复杂的起身场景中。
- 结论:
- 本文提出了一种基于强化学习的两阶段方法,用于为现实世界中的人形机器人学习起身策略。实验结果表明,该方法能够使人形机器人从不同姿态和不同地形上成功起身,并在真实世界中表现出良好的稳定性和泛化能力。
- 本文的研究不仅为人形机器人的自动起身问题提供了有效的解决方案,还为其他需要解决复杂接触模式的机器人学习任务提供了有益的参考和启示。
本文通过详细的理论分析、实验验证和结果讨论,充分展示了HUMAN UP系统在人形机器人起身任务中的优越性能和应用潜力。未来的工作将进一步优化和完善该系统,以推动人形机器人在更多实际应用场景中的部署和应用。