Pieter Abbeel standing next to BRETT, the Berkeley Robot for the Elimination of Tedious Tasks. (Photo by Adam Lau, Berkeley Engineering)
在正文开始前,小编想先分享一下这篇论文创作团队的背景情况。
足式机器人的派系
盘点足式机器人的几个山头,主要有两个派别,分别是偏控制领域的机器人派和用强化学习做具身智能的AI派。
机器人派和AI派的划分主要还是源于人形机器人软件控制的迭代。人形机器人的控制算法主要分三代:第一代,用简单的基于模型的控制算法(LIPM+ZMP),代表机器人ASIMO;第二代,动态模型控制和最优控制算法(MPC+WBC),代表机器人Atalas;第三代,模拟+强化学习。
这些算法各有优劣,我们这里不做过多技术上的探讨。但就从事研究的人来说,第一代和第二代基于模型控制的算法一般是控制、自动化或电子系的人在搞;第三代Sim+RL的算法,一般是计算机系AI方向的人在搞。小编今天分享论文的创作团队是属于偏向第三代这种基于AI来交叉Robotics的学者。
整个Robot Learning领域,或者说AI+Robotics,UC Berkeley可谓一手遮天。在知乎上看到一个说法:“其他学校的实力甚至相当程度取决于距离伯克利的地理距离…”,从CoRL接收论文作者的统计来看,还真是这样,排名第一UC Berekely,第二Stanford,第三UW。
创作团队的背景情况
UC Berkeley AI+Robotics这个领域最强是Pieter Abbeel派系,他是将深度强化学习应用在机器人方面的先驱人物,于2021年获得ACM 计算奖的荣誉。在获奖公告中,ACM 提到:「Pieter率先教会机器人从人类演示中学习(模仿学习)和通过自己的反复试错学习(强化学习),这为下一代机器人技术奠定了基础。」
Pieter Abbeel现为加州大学伯克利分校计算机科学与电气工程教授,伯克利人工智能研究实验室(BAIR)的联合主任,伯克利机器人学习实验室(Berkeley Robot Learning Lab)主任,他最出名的是在机器人和机器学习方面的前沿研究,特别是在深度强化学习(deep reinforcement learning)方面。他于2000年获得比利时鲁汶大学电气工程学士和硕士学位,并在斯坦福大学获得计算机科学博士学位。Pieter Abbeel是AI大牛吴恩达的第一个博士生,这里值得一提的是吴恩达博士论文就是RL领域,但他后期的工作没有在RL这个领域继续,Pieter Abbeel作为吴恩达的第一个学生,延续了吴恩达在RL的传承,并成为当今RL+Robotics最强的一个派系。
Abbeel在AI+Robotics领域可谓桃李满天下,他一个学生近些年霸榜Robot Learing各大顶会——Sergey Levine。Levine在Robot Learning领域的顶会CoRL参与的Paper多达41篇,遥遥领先其他学者。Levine又培养了这个领域的另一个牛人Chelsea Finn,目前在Stanford做教授。Pieter Abbeel,Sergey Levine,Chelsea Finn这师徒孙三代人以及他们的徒子徒孙,按照发Paper的量来说可能占据了如今AI+Robotics领域的半壁江山。Pieter的徒子徒孙也遍布北美各大厂,包括谷歌,英伟达,OpenAI等。值得一提的是,提出RLHF的OpenAI强化学习团队负责人John Schulman也是Abbeel的学生。此外,Abbeel在AI+Robotics领域的种子也散布在中国,例如清华叉院的吴翼和高阳在博士期间在Pieter的指导下做出很多优秀成果。
Abstract
仿人机器人凭借其利用类人形态的灵活性和适应性,在帮助人类完成各种环境和任务方面有着巨大的前景。然而,人形机器人的研究往往受到昂贵和脆弱的硬件设置的阻碍。为了加快仿人机器人的算法研究,我们提出了一个高维模拟机器人学习基准HumanoidBench,其特点是仿人机器人配备了灵巧的双手和各种具有挑战性的全身操纵和运动任务。我们的研究结果表明,最先进的强化学习算法在大多数任务中都很吃力,而分层学习基线在有稳健的低级别策略(如步行或伸手)支持的情况下,可以获得卓越的性能。通过HumanoidBench,我们为机器人圈提供了一个平台,以识别使用人形机器人解决各种任务时出现的挑战,促进算法和想法的及时验证。
HumanoidBench
HumanoidBench是同类模拟人形机器人中的第一个基准,包括27个不同的全身控制任务,每一个任务都面临着独特的挑战,如复杂的长期控制和复杂的协调。
Locomotion
"Static" Manipulation
"Dynamic" Manipulation
Simulation Environment
HumanoidBench的模拟环境使用MuJoCo物理引擎,可选择不同的机器人模型(如Unitree H1、Agility Robotics Digit)和末端效应器(如Shadow Hand、Robotiq 2F-85夹持器、Seed Robotics)。在我们的实验中,我们选择了Unitree H1人形机器人,其手臂上安装了两个五指灵巧手。
Observation Space观测空间
我们的模拟环境支持以下观察结果:
- 感知机器人状态(即关节角度和速度)和任务相关的环境观测(即物体姿态和速度)。
- 放置在机器人头部的两个摄像头进行的以自我为中心的视觉观察。
- 使用MuJoCo触觉网格传感器进行全身触觉传感。我们设计了高分辨率的手部触觉传感和低分辨率的身体其他部位触觉传感,类似于人类,每个都提供三维接触力读数。
-
Hierarchical Reinforcement Learning
我们在所有任务中对各种最先进的强化学习算法进行了基准测试。我们的结果显示了这些端到端(平面)算法如何难以控制复杂的人形机器人动力学和解决最具挑战性的任务。事实上,许多此类任务需要长期规划,并需要获得一套不同的技能(如平衡、行走、伸手等)才能成功实现预期目标。
我们认为,可以通过在学习问题中引入额外的结构来缓解这些问题。特别是,我们探索了一种分层学习范式,其中一个或多个低级技能策略被提供给高级规划策略,该策略将设置点发送给较低级别的策略。
例如,在推送任务中,我们使用单手到达策略(使用MuJoCo MJX用大规模并行PPO训练)作为低级技能,这允许机器人用左手到达空间中的3D点。
未来研究的巨大机遇
通过HumanoidBench,我们为复杂的日常任务设定了一个很高的标准,希望激励机器人圈加快开发具有高维观察和行动空间的人形机器人的全身算法。
许多任务仍然没有解决——下面的视频显示了一组非详尽的故障模式。
该研究的详细内容已经发表在ArXiv期刊上。(下滑阅读全文)
更多产品信息:http://www.jingtianrobots.com/index.php?id=1167
获取产品报价:https://item.jd.com/10083521666330.html
论文地址:https://arxiv.org/pdf/2403.10506
项目地址:HumanoidBench