项目地址:WoCoCo: Learning Whole-Body Humanoid Control with Sequential Contacts
WoCoCo(Whole-Body Control with Sequential Contacts)框架通过将任务分解为多个接触阶段,简化了策略学习流程,使得 RL 策略能够通过任务无关的奖励和模拟到现实的设计来学习复杂的人型机器人控制任务。该框架仅需要对每个任务指定少量任务相关的奖励项。研究者们通过 WoCoCo 框架在现实世界中成功地实现了四个挑战性的人型机器人任务,以及一个 22 自由度恐龙机器人的物体操控任务,展示了该框架的多样性和普适性。
WoCoCo 框架的核心在于其奖励设计,包括密集的接触奖励、阶段计数奖励和好奇心奖励,这些奖励促进了机器人在不同接触阶段的探索,并且通过一个通用的模拟到现实的训练流程,实现了对不同任务的适应。通过详细的异化分析和奖励项权重调整,研究者们验证了 WoCoCo 框架的有效性。此外,该研究还讨论了 WoCoCo 框架的局限性和未来工作的方向,包括失败预测和基于在线感知的控制策略。
论文初读: