【论文阅读】HumanPlus: Humanoid Shadowing and Imitation from Humans

作者:Zipeng Fu、Qingqing Zhao、Qi Wu、Gordon Wetstein、Chelsea Finn
项目共同负责人,斯坦福大学 项目网址:https://humanoid-ai.github.io

摘要

制造外形与人类相似的机器人的一个关键理由是,我们可以利用大量的人类数据进行训练。然而,由于人形机器人在感知和控制方面的复杂性,人形机器人与人类在形态和驱动方式上存在的物理差距,以及缺乏让人形机器人从第一人称视角视觉学习自主技能的数据处理流程,在实际操作中利用这些数据仍然具有挑战性。在本文中,我们介绍了一种完整的系统,使人形机器人能够从人类数据中学习动作和自主技能。我们首先在模拟环境中通过强化学习,利用现有的 40 小时人类动作数据集训练一个底层策略。这个策略可以迁移到现实世界,让人形机器人仅使用一个 RGB 摄像头就能实时跟随人类的身体和手部动作,即动作跟随(shadowing)。通过动作跟随,人类操作员可以远程操作人形机器人,收集现实世界中用于学习不同任务的全身数据。利用收集到的数据,我们随后进行有监督的行为克隆,使用第一人称视角视觉训练技能策略,从而使人形机器人能够通过模仿人类技能自主完成不同任务。我们在定制的 33 自由度、180 厘米高的人形机器人上展示了该系统,通过最多 40 次演示,该机器人能自主完成诸如穿鞋后站立行走、从仓库货架上取物、折叠运动衫、重新摆放物品、打字以及与另一个机器人打招呼等任务,成功率达到 60 - 100%。

1. 引言

人形机器人因其类似人类的外形,长期以来一直受到机器人学界的关注。由于我们周围的环境、任务和工具都是基于人类形态构建和设计的,与人等高的人形机器人自然成为通用机器人的硬件平台,有望解决人类能完成的所有任务。人形机器人类似人类的形态也提供了一个独特的机会,即可以利用大量可用的人类动作和技能数据进行训练,从而避开机器人数据稀缺的问题。通过模仿人类,人形机器人有可能挖掘人类展现出的丰富技能和动作,为实现通用机器人智能提供一条有前景的途径。

然而,在实践中,人形机器人从人类数据中学习仍然面临挑战。人形机器人复杂的动力学特性以及高维的状态和动作空间,给感知和控制带来了困难。传统方法,如将问题分解为感知、规划和跟踪,以及对手臂和腿部控制进行单独模块化 [10, 10, 23, 40],设计起来耗时,应用范围也有限,难以扩展到人形机器人预期操作的各种任务和环境中。此外,尽管与人形机器人相比,人形机器人与人类的相似度较高,但在形态和驱动方式上仍存在物理差异,包括自由度数量、连杆长度、高度、重量、视觉参数和机制,以及驱动强度和响应性等,这些都阻碍了人形机器人有效利用和学习人类数据。现成的集成硬件平台的缺乏进一步加剧了这个问题。另外,我们缺少一个用于人形机器人全身远程操作的便捷数据处理流程,这使得研究人员无法利用模仿学习来教授人形机器人任意技能。多家公司开发的人形机器人展示了这种数据处理流程以及后续从收集的数据中进行模仿学习的潜力,但相关细节并未公开,且其系统的自主演示也仅限于少数任务。先前的工作使用动作捕捉系统、第一人称视角(first-person-view,FPV)虚拟现实(virtual reality,VR)头戴设备和外骨骼来远程操作人形机器人 [17, 20, 38, 59],这些设备昂贵且操作地点受限。

在本文中,我们提出了一个完整的系统,使人形机器人能够从人类数据中学习动作和自主技能。为了解决人形机器人的控制复杂性问题,我们借鉴了近年来腿部机器人通过在模拟环境中进行大规模强化学习和仿真到现实迁移(sim-to-real transfer)取得的成功经验 [41, 51],训练一个用于全身控制的底层策略。通常,基于学习的底层策略由于耗时的奖励工程设计 [19, 68],被设计为特定任务策略,这使得人形机器人硬件一次只能展示一种技能,比如行走。这种限制制约了人形机器人平台能够执行的任务多样性。同时,我们拥有一个 40 小时的人类动作数据集 AMASS [49],涵盖了广泛的技能。我们利用这个数据集,首先将人类姿态重新映射到人形机器人姿态,然后基于重新映射后的形机器人姿态训练一个与任务无关的底层策略称为人形机器人动作跟随变换器(Humanoid Shadowing Transformer)。我们基于姿态的底层策略可以零样本迁移到现实世界。

在部署了根据目标姿态控制人形机器人的底层策略后,我们可以使用单个 RGB 摄像头,实时让人形机器人对定制的 33 自由度、180 厘米高的人形机器人进行动作跟随。使用最先进的人体和手部姿态估计算法 [58, 81],我们可以估计实时人类动作,并将其重新映射为人形机器人动作,作为底层策略的输入。传统上,这个过程是通过使用动作捕捉系统完成的,动作捕捉系统昂贵且操作地点受限。站在附近的人类操作员可以通过视线远程操作人形机器人,收集现实世界中各种任务的全身数据,如拳击、弹钢琴、打乒乓球以及打开橱柜存放重物。在被远程操作时,人形机器人通过双目 RGB 摄像头收集第一人称视角视觉数据。动作跟随为各种现实世界任务提供了一个高效的数据收集流程,避开了在模拟环境中进行逼真的 RGB 渲染、精确的软物体模拟和多样化任务规范的挑战。

利用通过动作跟随收集的数据,我们进行有监督的行为克隆,以训练基于视觉的技能策略。技能策略将人形机器人双目第一人称视角 RGB 视觉作为输入,并预测所需的人形机器人身体和手部姿态。我们借鉴了近期从人类提供的演示中进行模仿学习的成功经验 [11, 104],并引入了一种基于变换器的架构,融合了动作预测和前向动力学预测。通过对图像特征进行前向动力学预测,我们的方法通过对图像特征空间进行正则化,提高了性能,防止基于视觉的技能策略忽略图像特征并过度拟合本体感觉。通过最多 40 次演示,我们的人形机器人可以自主完成诸如穿鞋后站立行走、从仓库货架上取物、折叠运动衫、重新摆放物品、打字以及与另一个机器人打招呼等任务,成功率达到 60 - 100%。

本文的主要贡献是一个名为 HumanPlus 的完整人形机器人系统,用于从人类数据中学习复杂的自主技能。该系统的核心是:

(1)一个实时动作跟随系统,允许人类操作员使用单个 RGB 摄像头进行全身控制人形机器人,以及人形机器人动作跟随变换器,这是一个在模拟环境中基于大量人类动作数据训练的底层策略;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值