这篇笔记用来描述 2025年 发表在arxiv上的一篇有关 VLA 领域的论文,并被CVPR 2025收录。主要介绍了一个有关灵巧手模型并提供了开源数据集,在训练模型的流程上进行了一些调整,并在仿真与真机迁移上进行了验证。
写在最前面
为了方便你的阅读,以下几点的注意事项请务必了解:
- 该系列文章每个字都是我理解后自行翻译并写上去的,可能会存在笔误与理解错误,如果发现了希望读者能够在评论区指正,我会在第一时间修正错误。
- 阅读这个系列需要你有基本的 VLA, LLM, VLM 相关基础知识,有时候我会直接使用英文名词,因为这些词汇实在不容易找到符合语境的翻译。
- 原文可能因为版面限制存在图像表格与段落不同步的问题,为了更方便阅读,我会在博文中重新对图像表格进行排版,并做到引用图表的文字下方就能看到被引用的图表。因此可能会出现一张图片在博客中多处位置重复出现的情况。
- 对于原文中的图像,我会在必要时对图像描述进行翻译并附上我自己的理解,但如果图像描述不值得翻译我也不会强行写上去。
Basic Information
- 论文标题:ManipTrans: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning
- 原文链接: https://arxiv.org/abs/2503.21860
- 发表时间:2025年02月27日
- 发表平台:arxiv
- 预印版本号:[v1] Thu, 27 Mar 2025 17:50:30 UTC (12,314 KB)
- 作者团队:Kailin Li, Puhao Li, Tengyu Liu, Yuyang Li, Siyuan Huang
- 院校机构:
- State Key Laboratory of General Artificial Intelligence, BIGAI;
- Department of Automation, Tsinghua University;
- Institute for Artificial Intelligence, Peking University;
- 项目链接: https://maniptrans.github.io
- GitHub仓库: https://github.com/ManipTrans/ManipTrans
Abstract
人手在交互中起着核心作用,推动着灵巧机器人操作研究的不断深入。数据驱动的具身人工智能算法需要精确、大规模、类似人类的操作序列,而这通过传统的强化学习或现实世界的遥操作难以实现。为了解决这个问题,作者开发了 MANIPTRANS
,一种新颖的分段模型,用于在仿真中将人类的双手技能有效地迁移到灵巧的机械手上。MANIPTRANS
首先预训练一个通用轨迹模拟器来模仿手部运动,然后在交互约束下微调特定的残差模块,从而实现高效学习和复杂双手任务的准确执行。实验表明,MANIPTRANS
在成功率、保真度、效率方面均超越了SOTA。利用 MANIPTRANS
,将多个手部对象数据集迁移到机械手,创建了 DEXMANIPNET
大型数据集,其中包含一些此前从未探索过的任务,例如盖笔盖和拧开瓶子。DEXMANIPNET
包含 3.3K 个机器人操作场景,易于扩展,有助于进一步训练灵巧手的策略,并实现实际部署。
1. Intorduction
近年来,具身人工智能 (EAI) 发展迅速,不断努力使人工智能驱动的具身能够与物理或虚拟环境交互。正如人手在交互中起着关键作用一样,EAI 领域的许多研究也集中于灵巧的机器人手操作。在复杂的双手任务中达到类似人类的熟练程度具有重要的研究价值,这对于通用人工智能的进步至关重要。
快速获取精确、大规模、类似人类的灵巧操作样本,用于数据驱动的具身智能体训练变得越来越紧迫。一些研究使用强化学习 (RL) 来探索和生成灵巧的手部动作,而另一些研究则通过遥操作采集人机配对数据。这两种方法都有局限性:传统的 RL 需要精心设计针对特定任务的奖励函数,这限制了可扩展性和任务复杂性,而遥操作则是劳动密集型且成本高昂的,只能产生特定于具身智能体的数据集。
一个有前景的解决方案是通过 模仿学习 将人类操作动作迁移到模拟环境中的灵巧机械手上。这种方法有以下几个优点:
- 模仿人类操作轨迹可以创建自然的手部与物体的交互,从而实现更流畅、更像人类的动作;
- 丰富的动作捕捉 (
MoCap
) 数据集和手势估计技术使得从人类演示中提取操作知识变得容易; - 模拟提供了一种经济有效的验证,为现实世界的机器人部署提供了捷径;
然而,实现精确高效的迁移并非易事。如Fig.1
所示,人手和机械手之间的形态差异导致直接姿态重定向效果不佳。尽管 MoCap
数据相对准确,但误差累积仍可能导致在高精度任务中出现严重错误。此外,双手操作引入了高维动作空间,显著增加了高效策略学习的难度。因此,大多数研究工作通常止步于 单手抓握 和 举起任务,而诸如拧开瓶子或盖上笔盖等复杂的双手活动则基本未被探索。
在本文中,作者提出了一种简单而有效的方法 MANIPTRANS
,该方法有助于将手部操作技能(尤其是双手动作)迁移到模拟中的灵巧机械手,从而实现对参考运动的精确跟踪。关键手段是将迁移视为一个两阶段过程:一个仅关注手部动作的预训练轨迹模仿阶段,然后是 满足交互约束的特定动作微调阶段。具体而言,设计了一个鲁棒的通用模型,可以学习准确模仿人类手指动作,并且具有抗噪能力。在此初步模仿的基础上,引入了一个残差学习模块,它可以逐步改进机器人的动作,重点关注两个关键方面:1)确保在物理约束下与物体表面稳定接触,从而实现有效的物体操作;2)协调双手以确保精确、高保真地执行复杂的双手操作。这种设计有以下三方面的优势:
- 第一阶段专注于动态手部模仿,通过大规模预训练有效减轻形态差异;
- 第二阶段专注于 跟踪双手物体交互,从而精确捕捉细微动作并促进自然、高保真操作;
- 通过将人类手部运动模仿与基于物理的物体交互约束分离,它显著降低了动作空间复杂度,从而提高了训练效率。
基于此框架,MANIPTRANS
可以将任意的、嘈杂的手部 MoCap
数据校正为物理上合理的运动,而无需事先定义动作阶段(例如“接近-抓取-操作”)或定义特定任务的奖励方式。模型在一系列复杂的单手和双手操作中验证了它的有效性和效率,包括关节物体的处理。使用 MANIPTRANS
将几个有手部-物体操作数据集迁移到 Isaac Gym
模拟器中的灵巧机械手,构建了 DEXMANIPNET
数据集,该数据集在运动保真度和柔顺性方面取得了显着的提升。目前,DEXMANIPNET
包含 3.3K 个场景和 134 万帧的机械手操作数据,涵盖了以前未探索的任务,例如盖笔盖、拧开瓶盖和化学实验。
通过实验证明 MANIPTRANS
在 运动精度和 传输成功率 方面均优于基线方法。即便在个人PC上,其传输效率方面超越了之前SOTA。为了评估其可扩展性,作者进行了跨实施例实验,将 MANIPTRANS
应用于具有不同自由度 (DoF) 和形态的灵巧手,以最小的额外调整实现了一致的性能。此外,还在真机上重现了 DEXMANIPNET
的双手轨迹,展示了敏捷和自然的灵巧操作,这是以前的基于 RL 或遥操作的方法无法实现的。最后,使用几个模仿学习框架对 DEXMANIPNET
进行了基准测试,体现了它对研究界的价值。
总而言之,作者的贡献如下:
- 推出了
MANIPTRANS
一个简单而有效的两阶段框架,能够在仿真中将人类的双手操作精确地转移到灵巧的机械手上,确保准确跟踪手部和物体的参考运动; - 基于此框架,构建了一个大规模、高质量的数据集
DEXMANIPNET
,涵盖了一系列新颖的双手操作任务,具有高精度和高合规性。DEXMANIPNET
具有可扩展性,可作为未来策略训练的宝贵资源; - 实验表明,
MANIPTRANS
的表现优于以往的 SOTA 方法,证明了其在各种灵巧手配置中的通用性以及在现实世界中部署的可行性;
2. Related Works
Dexterous Manipulation via Human Demonstration
从人类演示中学习操作技能提供了一种将人类能力迁移给机器人的直观有效的方法。模仿学习在实现这种迁移方面表现出了相当大的潜力。近期研究重点关注 由物体轨迹引导的强化学习策略。QuasiSim 通过参数化的准物理模拟器将参考手部动作直接迁移到机械手,从而改进了这种方法。然而,这些方法仅限于较简单的任务且计算量很大。最近,有开发出针对特定任务的定制奖励函数解决方案,用于诸如双手扭唇之类的具有挑战性的任务。相比之下,作者的方法无需定制特定任务的奖励工程,即可高效学习复杂的操作任务。
Dexterous Hand Datasets
物体操控是具身智能体的基础。目前已有大量基于 MANO
的手物交互数据集。然而,这些数据集通常优先考虑与二维图像的姿态对齐,而忽略了物理约束,从而限制了它们在机器人训练中的适用性。遥操作方法使用 AR/VR 系统或基于视觉的动作捕捉在线采集人机手部匹配数据,以便在人类参与的情况下进行实时数据采集和校正。然而,遥操作劳动密集且耗时,缺乏触觉反馈往往会导致动作僵硬、不自然,阻碍细粒度的操作。相比之下,作者的方法可以将人类演示离线传输给机器人。 DEXMANIPNET
提供了一个庞大、易于扩展的人类演示片段集合。
Residual Learning
由于强化学习训练的样本效率低下和耗时,残差策略学习(一种逐步改进动作控制的方法)被广泛采用以提高效率和稳定性。在灵巧手操作领域,多项研究探索了针对特定任务的残差策略,例如,在残差策略训练期间集成用户操作、从人类示范中学习纠正动作。GraspGF
采用基于分数的预训练生成模型作为基础,将模仿任务分解为手腕跟随和手指运动控制,并集成了残差手腕控制策略。此外,还有学者利用残差学习构建了一个混合专家系统,而 DexH2R
将残差学习直接应用于重定向的机器人手部动作。作者的方法与这些方法的不同之处在于,预训练了一个包含额外动态信息的手指运动模仿模型,然后微调残差策略以适应特定于任务的物理约束。这种方法更高效,并且适用于各种操作任务。
3. Method
Fig.2
概述了作者的方法。给定参考的人手-物体交互轨迹,目标是学习一种策略,使灵巧手能够在仿真中精确复制这些轨迹,同时满足任务的语义操作约束。提出了一个两阶段框架:第一阶段训练通用的手部轨迹模仿模型;第二阶段采用残差模型将初始粗略运动细化为符合任务要求的动作。
3.1 Preliminaries
为了不失一般性,在复杂的双手环境中制定了物体操作转移的情况,其中左右灵巧手
d
=
{
d
l
,
d
r
}
d=\{d_{l}, d_{r}\}
d={dl,dr} 旨在复制人手
h
=
{
h
l
,
h
r
}
h=\{h_{l},h_{r}\}
h={hl,hr} 的行为,人手以合作的方式与两个物体
o
=
{
o
l
,
o
r
}
o=\{o_{l},o_{r}\}
o={ol,or}交互(例如,在笔帽任务中,一只手握住笔帽,另一只手握住笔身)。人类演示的参考轨迹定义为
τ
h
=
{
τ
h
t
}
t
=
1
T
\tau_{h}=\{\tau_{h}^{t}\}^{T}_{t=1}
τh={τht}t=1T 和
τ
o
=
{
τ
o
t
}
t
=
1
T
\tau_{o}=\{\tau_{o}^{t}\}_{t=1}^{T}
τo={τot}t=1T,其中
T
T
T 表示总帧数。每只手的轨迹
τ
h
\tau_{h}
τh 包括手腕的 6-DoF 姿态
w
h
∈
S
E
(
3
)
w_{h}\in SE(3)
wh∈SE(3)、线速度和角速度
w
˙
h
=
{
v
h
,
u
h
}
\dot{w}_{h}=\{v_{h},u_{h}\}
w˙h={vh,uh} 以及由 MANO
定义的手指关节位置
j
h
∈
R
F
×
3
j_{h}\in R^{F\times 3}
jh∈RF×3,以及它们各自的速度
j
˙
h
=
{
v
j
,
u
j
}
\dot{j}_{h}=\{v_{j},u_{j}\}
j˙h={vj,uj};
F
F
F 表示手部关键点的数量,包括指尖。每个物体的物体轨迹
τ
o
\tau_{o}
τo 包括其 6-DoF 姿态
p
o
∈
S
E
(
3
)
p_{o}\in SE(3)
po∈SE(3) 以及相应的线速度和角速度
p
˙
o
=
{
v
o
,
u
o
}
\dot{p}_{o}=\{v_{o},u_{o}\}
p˙o={vo,uo}。为了降低空间复杂度,对相对于灵巧手手腕位置的所有平移进行归一化,同时保留原始旋转以保持正确的重力方向。
将问题建模为隐式马尔可夫决策过程 (MDP) M = < S , A , T , R , γ > M=<S,A,T,R,\gamma> M=<S,A,T,R,γ>,其中 S S S 表示状态空间, A A A 表示动作空间, T T T 表示转换动力学, R R R 表示奖励函数, γ \gamma γ 表示衰减因子。每个灵巧手在时间 t t t 的动作表示为 a t ∈ A a^{t}\in A at∈A,包括每个灵巧手关节 a q t ∈ R K a^{t}_{q}\in R^{K} aqt∈RK 的目标位置(用于比例微分 (PD) 控制)和施加到机器人手腕上的 6-DoF 力 a w t ∈ R 6 a^{t}_{w}\in R^{6} awt∈R6,其中 K K K 表示机器人手旋转关节的总数(即 DoF)。
方法将迁移过程分为两个阶段:
- 预先训练的纯手部轨迹模仿模型 I I I;
- 残差模块 R R R 用于微调粗略动作以确保任务合规性;
在 t t t 时刻的状态 s I t ∈ S I , s R t ∈ S R s^{t}_{I}\in S_{I}, s^{t}_{R}\in S_{R} sIt∈SI,sRt∈SR 以及其对应的奖励函数 r I t = R ( s I t , a I t ) , r R t = R ( s R t , a R t ) r^{t}_{I}=R(s^{t}_{I},a^{t}_{I}), r^{t}_{R}=R(s^{t}_{R},a^{t}_{R}) rIt=R(sIt,aIt),rRt=R(sRt,aRt)。对于这两个阶段,都采用近端策略优化(PPO)来最大化折扣奖励 E [ ∑ t = 1 T γ t − 1 t s t a g e t ] E[\sum^{T}_{t=1}\gamma^{t-1}t^{t}_{stage}] E[∑t=1Tγt−1tstaget]。
3.2 Hand Trajectory Imitating
在手部轨迹模仿阶段,目标是学习通用的手部轨迹模仿模型 I I I 其能够准确复制人类手指的详细动作。每个灵巧手在 t t t 时刻的状态 s I t = { τ h t , s p r o p t } s^{t}_{I}=\{\tau^{t}_{h},s^{t}_{prop}\} sIt={τht,spropt},包含目标手部轨迹 τ h t \tau^{t}_{h} τht 和当前本体状态 s p r o p t = { q d t , q ˙ d t , w d t , w ˙ d t } s^{t}_{prop}=\{q^{t}_{d}, \dot{q}^{t}_{d},w^{t}_{d},\dot{w}^{t}_{d}\} spropt={qdt,q˙dt,wdt,w˙dt},其中 q d t q^{t}_{d} qdt 表示关节角度, w d t w^{t}_{d} wdt 表示手腕姿态。期望用 RL 训练出一个模型 π I ( a t ∣ s I t , a t − 1 ) \pi_{I}(a^{t}|s^{t}_{I},a^{t-1}) πI(at∣sIt,at−1) 来确定在 t t t 时刻的动作 a I t a^{t}_{I} aIt。奖励函数 r h t r^{t}_{h} rht 被设计为激励灵巧手跟踪手部运动轨迹 τ h t \tau^{t}_{h} τht 的同时保证稳定性和流畅性,该函数由三个部分组成:
- 手腕奖励 r w r i s t t r^{t}_{wrist} rwristt 用来最小化 w d t ⊖ w h t w^{t}_{d} \ominus w^{t}_{h} wdt⊖wht和 w ˙ d t − w ˙ h t \dot{w}^{t}_{d}-\dot{w}^{t}_{h} w˙dt−w˙ht 在空间的差值;
- 手指奖励
r
f
i
n
g
e
r
t
r^{t}_{finger}
rfingert 激励灵巧手紧密跟随参考手指关节位置。人工筛选灵巧手上与
MANO
模型对应的 F F F 个手指关键点,记为 j d j_{d} jd。权重 w f w_{f} wf 和衰减率 λ f \lambda f λf 是经验参数,用于区别指尖,尤其是拇指、食指和中指的指尖。这种设计有助于减轻人手和机械手之间形态差异的影响:
r f i n g e r t = ∑ f = 1 F w f ⋅ e x p ( − λ f ∥ j d f t − j h f t ∥ 2 2 ) \begin{equation} r^{t}_{finger}=\sum^{F}_{f=1}w_{f}\cdot exp(-\lambda_{f} \|j^{t}_{d_{f}}-j^{t}_{h_{f}}\|^{2}_{2}) \end{equation} rfingert=f=1∑Fwf⋅exp(−λf∥jdft−jhft∥22)
- 平滑奖励 r s m o o t h t r^{t}_{smooth} rsmootht,缓解不平稳的运动,惩罚施加在每个关节上的力量,定义为关节速度和扭矩的逐元素乘积。
那么总体的奖励函数定义如下:
r I t = w w r i s t ⋅ r w r i s t t + w f i n g e r ⋅ r f i n g e r t + w s m o o t h ⋅ r s m o o t h t r^{t}_{I}=w_{wrist}\cdot r^{t}_{wrist}+w_{finger}\cdot r^{t}_{finger}+w_{smooth}\cdot r^{t}_{smooth} rIt=wwrist⋅rwristt+wfinger⋅rfingert+wsmooth⋅rsmootht
Training Strategy
将手部模仿与物体交互分离可以带来额外的好处。
π
I
\pi_{I}
πI 表示不需要难以获取的操作数据。使用仅限手部的数据集训练,包括现有的手部运动集合和通过插值生成的合成数据。为了平衡左右手之间的训练数据,作者对这些数据集进行了镜像处理。为了提高效率,采用参考状态初始化 (RSI) 和提前终止。如果灵巧手关键点
j
d
j_{d}
jd 的偏差超过阈值
ϵ
f
i
n
g
e
r
\epsilon_{finger}
ϵfinger,则提前终止并重置为随机采样的 MoCap
状态。还利用curriculum学习,逐渐减少 KaTeX parse error: Undefined control sequence: \espilon at position 1: \̲e̲s̲p̲i̲l̲o̲n̲_{finger} 阈值以鼓励最初的广泛探索,然后专注于细粒度的手指控制。
3.3 Residual Learning for Interaction
在预训练 π I \pi_{I} πI的基础上,使用残差模块 R R R 来细化粗略动作并满足特定任务的约束。
State Space Expansion for Interaction
为了解释灵巧双手与物体之间的相互作用,通过合并额外的交互信息扩展状态空间使其超越了与手相关的状态
s
I
t
s^{t}_{I}
sIt。首先,根据 MoCap
数据计算物体网格
o
o
o 的凸包,以在仿真环境中生成可碰撞物体
o
^
\hat{o}
o^。为了沿参考轨迹
τ
o
\tau_{o}
τo 操纵物体,需要考虑物体相对于手腕
w
d
w_{d}
wd 的位置
p
o
^
p_{\hat{o}}
po^、速度
p
˙
o
^
\dot{p}_{\hat{o}}
p˙o^、质心
m
o
^
m_{\hat{o}}
mo^ 和 重力矢量
G
o
^
G_{\hat{o}}
Go^。使用 BPS 编码物体的形状,为了增强感知,使用欧氏距离
D
(
j
d
t
,
p
o
^
t
)
=
∥
j
d
t
−
p
o
^
t
∥
2
2
D(j^{t}_{d},p^{t}_{\hat{o}})=\|j^{t}_{d}-p^{t}_{\hat{o}}\|^{2}_{2}
D(jdt,po^t)=∥jdt−po^t∥22 来度量手和物体之间的空间关系。此外,明确使用了从仿真中获得的接触力
C
C
C 表示指尖与物体表面之间的相互作用。这种触觉反馈对于复杂任务中稳定的抓握和操控至关重要,确保在操作过程中实现精确控制。总而言之,残差模块的扩展交互状态定义为:
s i n t e r a c t t = { τ o t , p o ^ t , p ˙ o ^ t , m o ^ t , G o ^ t , B P S ( o ^ ) , D ( k d t , p o ^ t ) , C t } s^{t}_{interact}=\{\tau^{t}_{o},p^{t}_{\hat{o}},\dot{p}^{t}_{\hat{o}},m^{t}_{\hat{o}},G^{t}_{\hat{o}},BPS(\hat{o}),D(k^{t}_{d},p^{t}_{\hat{o}}),C^{t}\} sinteractt={τot,po^t,p˙o^t,mo^t,Go^t,BPS(o^),D(kdt,po^t),Ct}
Residual Actions Combining Strategy
对于组合状态
s
R
t
=
s
I
t
∪
s
i
n
t
e
r
a
c
t
t
s^{t}_{R}=s^{t}_{I}\cup s^{t}_{interact}
sRt=sIt∪sinteractt 的训练目标为学习残差动作
Δ
a
R
t
\Delta a^{t}_{R}
ΔaRt 改进初始模仿动作
a
R
t
a^{t}_{R}
aRt 以确保任务合规性。在操纵过程的每个步骤中,首先采样模仿动作
a
I
t
∼
π
I
(
a
t
∣
s
I
t
,
a
t
−
1
)
a^{t}_{I}\sim\pi_{I}(a^{t}|s^{t}_{I},a^{t-1})
aIt∼πI(at∣sIt,at−1);然后再对残差校正进行采样
Δ
a
R
t
∼
π
R
(
Δ
a
t
∣
s
R
t
,
a
I
t
,
a
t
−
1
)
\Delta a^{t}_{R}\sim \pi_{R}(\Delta a^{t}|s^{t}_{R},a^{t}_{I},a^{t-1})
ΔaRt∼πR(Δat∣sRt,aIt,at−1);最终的动作为
a
t
=
a
I
t
+
Δ
a
R
t
a^{t}=a^{t}_{I}+\Delta a^{t}_{R}
at=aIt+ΔaRt。最后,对
a
t
a^{t}
at 的末尾动作进行截断,使其符合灵巧手的关节极限。在训练开始时,由于灵巧手运动已经接近参考手部轨迹,因此残差动作预计接近于零。这种初始化有助于防止模型崩溃并加速收敛。使用 zero-mean
高斯分布初始化残差模块,并采用预热策略逐步激活训练。
Reward Functions
奖励函数的目标是任务无关,高效地将人类的双手操作技能迁移到灵巧的机械手上。为此,不使用针对特定任务的奖励工程,尽管这种做法对单一任务有益,但可能会限制泛化能力。因此奖励设计保持简单且通用。除了上面提到的手部模仿奖励 r I t r^{t}_{I} rIt,这里还引入了另外两个部分:
- 目标跟随奖励 r o b j e c t t r^{t}_{object} robjectt:最小化仿真物体与其参考轨迹之间的位置 p o ^ t ⊖ p o t p^{t}_{\hat{o}}\ominus p^{t}_{o} po^t⊖pot 和 速度差异 p ˙ o ^ t − p ˙ o t \dot{p}^{t}_{\hat{o}}-\dot{p}^{t}_{o} p˙o^t−p˙ot ;
- 接触力奖励
r
c
o
n
t
a
n
t
t
r^{t}_{contant}
rcontantt:当
MoCap
数据集中的手与物体之间的距离低于指定阈值 ξ c \xi_{c} ξc 时,鼓励适当增加接触力。奖励定义为:
r c o n t a c t t = w c ⋅ e x p ( − λ c ∑ f = 1 F C d f t ⋅ 1 ( D ( j h f t , p o t ⋅ o ) < ξ c ) ) r^{t}_{contact}=w_{c}\cdot exp\left(\frac{-\lambda_{c}}{\sum^{F}_{f=1}C^{t}_{d_{f}}\cdot1\left(D(j^{t}_{h_{f}},p^{t}_{o}\cdot o)<\xi_{c}\right)}\right) rcontactt=wc⋅exp ∑f=1FCdft⋅1(D(jhft,pot⋅o)<ξc)−λc
其中 D ( j h t , p o t ⋅ o ) D(j^{t}_{h},p^{t}_{o}\cdot o) D(jht,pot⋅o) 表示指尖 h f h_{f} hf与转换后的物体表面之间的最小距离; 1 ( ⋅ ) 1(\cdot) 1(⋅)为指示函数; C d f t C^{t}_{d_{f}} Cdft表示指尖的接触力;权重 w c w_{c} wc和衰减率 λ c \lambda_{c} λc根据经验来设定;完整的残差奖励函数定义为:
r R t = r I t + w o b j e c t ⋅ r o b j e c t r + w c o n t a n t ⋅ r c o n t a n t t r^{t}_{R}=r^{t}_{I}+w_{object}\cdot r^{r}_{object}+w_{contant}\cdot r^{t}_{contant} rRt=rIt+wobject⋅robjectr+wcontant⋅rcontantt
Training Strategy
作者在训练策略上有以下设计:
- 利用准物理模拟器在训练过程中放宽约束并避免局部极小值,在残差学习阶段引入了一种放松机制,直接在
Isaac Gym
环境中调整物理约束,以提高训练效率。将引力常数 G G G 设为零,并将摩擦系数 F F F 设为较高值,这可以让机械手能够在训练初期牢固有效地抓握物体并进行轨迹对齐; - 随着训练的进行,逐渐将 G G G 和 F F F 恢复到真实值;
- 与模仿阶段类似,采用 RSI、提前终止和课程学习策略,每个回合都通过从预处理轨迹中随机选择一个非碰撞的近物体状态来初始化机械手;
- 在训练过程中如果目标物体姿态 p o ^ t p^{t}_{\hat{o}} po^t 偏离阈值 ϵ o b j e c t \epsilon_{object} ϵobject 那么提前终止,随后逐渐降低阈值 ϵ o b j e c t \epsilon_{object} ϵobject 以激励更精准的操作;
- 引入终止条件,如果
MoCap
数据显示人手牢牢抓握 D ( j h f t , p o t ⋅ o ) < ξ t D(j^{t}_{h_{f}},p^{t}_{o}\cdot o)<\xi_{t} D(jhft,pot⋅o)<ξt 其中 ξ t \xi_{t} ξt 是终止阈值,那么接触力 KaTeX parse error: Double subscript at position 6: C_{t}_̲{d_{f}} 必须非零;不满足此条件将导致提前终止,该机制确保代理学会控制接触力,从而实现稳定的物体操控。
3.4 DEXMANIPNET Dataset
利用 MANIPTRANS
生成了 DEXMANIPNET
,它源自两个大规模手-物交互数据集:FAVOR
和 OakInk-V2
。FAVOR
采用基于 VR 的遥操作技术并结合人在回路校正,专注于物体重新排列等基础任务;OakInk-V2
采用基于光学追踪的动作捕捉技术,专注于更复杂的交互,例如盖笔盖和拧开瓶子。
由于灵巧机械手缺乏标准化,采用 Inspire Hand
作为主要平台,因为它具有高灵活性、稳定性、成本效益以及广泛的使用先例。为了解决双手任务的复杂性,采用 Inspire Hand
的模拟 12 自由度配置,与现实世界中的 6 自由度机制相比其灵活性更高。4.4 节和 4.5 节中演示 MA-NIPTRANS
对其他机械手的适应性以及在现实世界中的部署。
DEXMANIPNET
涵盖 61 个多样化且具有挑战性的任务,包含 3.3K 个机器人手部操作场景,涉及 1.2K 个物体,总计 134 万帧,其中包括大约 600 个涉及复杂双手任务的序列。每个场景都在 Isaac Gym
模拟中精确执行。相比之下,最近通过自动增强生成的数据集仅包含 9 个任务的 60 个源人类演示。
4. Experiments
本节描述了数据集的设置和指标(第 4.1 节),然后介绍了实现细节(第 4.2 节)。将 MANIPTRANS
与 SOTA 方法进行比较(第 4.3 节),展示跨具体化泛化能力(第 4.4 节),验证真实世界的部署(第 4.5 节),开展消融研究(第 4.6 节),并对 DEXMA-NIPNET
进行基准测试,以学习操作策略(第 4.7 节)。
4.1 Datasets and Metrics
Datasets
为了定量评估,使用OakInk-V2
官方验证集,其中约一半由双手操作任务组成;为了评估迁移能力,手动筛洗了满足任务完整性和语义相关性的 MoCap
序列,将其过滤为 4-20 秒的时长,并下采样至 60 fps。排除涉及可变形或超大物体的序列,最终共计约 80 个场景;为了进行定性评估,结合了 GRAB
、FAOVR
和 ARCTIC
数据集来展示该数据集的优势。
Metrics
为了评估 MANIPTRANS
的操作精度、任务执行度、迁移效率引入了以下指标:
- 每帧平均物体旋转和位移误差(单位:cm): E r = 1 T ∑ t = 1 T ( p r o t o ^ t ⋅ ( p r o t o t ) − 1 ) E_{r}=\frac{1}{T}\sum^{T}_{t=1}(p_{rot\hat{o}}^{t}\cdot(p_{rot o}^{t})^{-1}) Er=T1∑t=1T(proto^t⋅(protot)−1) 和 E t = 1 T ∑ t = 1 T ∥ p t s l o ^ t − p t s l o t ∥ 2 2 E_{t}=\frac{1}{T}\sum^{T}_{t=1}\|p_{tsl\hat{o}}^{t}-p_{tsl o}^{t}\|^{2}_{2} Et=T1∑t=1T∥ptslo^t−ptslot∥22;其中 p r o t p_{rot} prot 和 p t s l p_{tsl} ptsl 分别表示 6-DoF 的姿态 p p p;
- 平均每个关节位置误差(单位:cm): E j = 1 T × F ∑ t = 1 T ∑ f = 1 F ∥ j d f t − j h f t ∥ 2 2 E_{j}=\frac{1}{T\times F}\sum^{T}_{t=1}\sum^{F}_{f=1}\|j^{t}_{d_{f}}-j^{t}_{h_{f}}\|^{2}_{2} Ej=T×F1∑t=1T∑f=1F∥jdft−jhft∥22;
- 平均每个指尖位置误差(单位:cm): E f t = 1 T × M ∑ t = 1 T ∑ f t = 1 M ∥ t d f t t − t h f t t ∥ 2 2 E_{ft}=\frac{1}{T\times M}\sum^{T}_{t=1}\sum^{M}_{ft=1}\|t^{t}_{d_{ft}}-t^{t}_{h_{ft}}\|^{2}_{2} Eft=T×M1∑t=1T∑ft=1M∥tdftt−thftt∥22;对于单手任务 M = 5 M=5 M=5,对于双手任务 M = 10 M=10 M=10;
- 成功率 SR:对于单只手而言如果 E r E_{r} Er、 E t E_{t} Et、 E j E_{j} Ej 和 E f t E_{ft} Eft 均低于指定阈值 3 0 o , 3 c m , 8 c m , 6 c m 30^{o},3 cm,8cm,6cm 30o,3cm,8cm,6cm,则跟踪尝试被视为成功:对于双手任务,如果任何一只手未能满足这些条件,则轨迹被视为失败;
4.2 Implementation Details
在 MANIPTRANS
中,每个灵巧机械手上手动选择了
F
=
21
F=21
F=21 个关键点,分别对应人手的指尖、手掌和指骨位置,以减轻形态差异。附录中提供了有关关键点选择和奖励项权重系数
w
w
w 的详细信息。使用课程学习策略训练,初始阈值
ϵ
f
i
n
g
e
r
\epsilon_{finger}
ϵfinger 设置为 6 厘米,然后衰减到 4 厘米;物体对齐阈值
ϵ
o
b
j
e
c
t
\epsilon_{object}
ϵobject 开始于 90 和 6 厘米(用于旋转和平移),逐渐减小到 30 和 2 厘米。使用 Actor-Critic PPO
算法训练模仿模块
I
I
I 和残差模块
R
R
R,训练范围为 32 帧,batch_size=1024,衰减因子
γ
=
0.99
\gamma= 0.99
γ=0.99;使用Adam
作为优化器,初始学习率为
5
×
1
0
−
4
5\times 10^{-4}
5×10−4,并采用衰减调度程序。所有实验均在 Isaac Gym
中进行,在配备 NVIDIA RTX 4090
GPU 和 Intel i9-13900KF
CPU 的个人计算机上,以 1/60 秒的时间步长模拟 4096 个环境。
4.3 Evaluations
为了进行全面、公平的比较,作者对比了两类方法:强化学习组合方法、基于优化的方法,以证明 MANIPTRANS
的准确性和效率。
Comparison with RL-Combined Methods
由于先前强化学习 (RL) 组合方法缺乏公开代码,作者自行实现了一种经典算法:1)仅使用轨迹跟踪奖励的 RL-Only
探索,采用 PPO
算法从头开始训练机械手;2)重定向 + 残差学习,将残差动作应用于通过人机关键点对齐获得的重定向机械手姿势;3)仅重定向方法无需任何学习即可进行重定向。
如Table.1
所示,作者的模型在多个指标上均优于所有基线,在单手和双手任务中均展现出卓越的精度。实验结果证明两阶段迁移框架能够有效捕捉细微的手指运动和物体交互,从而实现较高的任务成功率和运动保真度。
由于灵巧手动作空间的复杂性和误差累积,Retarget-Only
基线几乎不可用,RL-Only
基线的表现不佳,是因为从头开始探索非常耗时,并且会降低运动精度;与 Retarget + Residual
基线相比,作者的方法利用预先训练的手部模仿模型,展示了改进的控制能力,可以实现与参考轨迹一致的更精确的操作;Retargeting
方法经常在接触丰富的场景中引起碰撞,导致残差策略训练期间不稳定。Fig.3
展示了在较少探索任务上的定性结果,突出了 MANIPTRANS
迁移人类操作技能的自然性和精确性。附录中提供了将我们的方法应用于铰接物体的更多详细信息和更多定性结果。
Comparison with Optimization-Based Method
QuasiSim通过优化定制模拟来跟踪人体运动,由于没有公开完整流程,加之其随机选择的验证集也不可用,因此无法进行直接的定量比较。作者在Fig.4
中提供了一个定性比较,展示了 MANIPTRANS
能够在类似于 QuasiSim 的设置中将人体运动转移到 Shadow Hand
,但表现出更稳定的接触和更平滑的运动。由于模型两阶段设计,对于 60 帧的看不见的单手操作轨迹(“旋转鼠标”),需要大约 15 分钟的训练才能获得稳健的结果,而 QuasiSim 则需要大约 40 小时的优化,这凸显了 MANIPTRANS
高效训练。
Fig.4 | Fig.5 |
---|---|
![]() | ![]() |
4.4 Cross-Embodiments Validation
MANIPTRANS
在各种灵巧手实施例中的可扩展性。如第三节所述,模仿模块
I
I
I 处理手部关键点追踪,而残差模块
R
R
R 捕捉指尖与物体之间的物理交互。框架与具体实体无关,因为完全依赖于人类手指与机器人关节之间的对应关系,从而可以用最小的努力适应不同的灵巧手。在 Shadow Hand
、关节 MANO
手、Inspire Hand
、Allegro Hand
上评估了 MANIPTRANS
,它们具有不同的 DoF:分别为
K
=
22
、
22
、
12
、
16
K = 22、22、12、16
K=22、22、12、16。在不改变网络超参数或奖励权重的情况下,MANIPTRANS
在单手任务(Fig.4
)和双手任务(Fig.5
)的所有实施例中均实现了一致、流畅且精确的性能。有关 Allegro Hand
请参阅附录。
4.5 Real-World Deployment
如Fig.6
所示,使用两个 7 自由度 Realman
机械臂和一对升级版 Inspire
机械手(配置相同,但增加了触觉传感器)进行实验。为了弥补模拟的 12 自由度机械手与 6 自由度真实硬件之间的差距,这里采用了一种基于拟合的方法来优化真实机器人的关节角度
q
d
∼
∈
R
6
q^{\sim}_{d}\in R^{6}
qd∼∈R6 表示为
a
r
g
m
i
n
q
d
∼
1
T
×
M
∑
f
t
=
1
T
∥
t
d
f
t
t
−
t
d
f
t
t
∥
2
2
argmin_{q^{\sim}_{d}}\frac{1}{T\times M}\sum^{T}_{ft=1}\|t^{t}_{d_{ft}}-t^{t}_{d_{ft}}\|^{2}_{2}
argminqd∼T×M1∑ft=1T∥tdftt−tdftt∥22 以及一个附加平滑损失
L
s
m
o
o
t
h
=
1
T
−
1
∑
t
=
1
T
−
1
∥
q
d
t
+
1
−
q
d
t
∥
2
2
L_{smooth}=\frac{1}{T-1}\sum^{T-1}_{t=1}\|q^{t+1}_{d}-q^{t}_{d}\|^{2}_{2}
Lsmooth=T−11∑t=1T−1∥qdt+1−qdt∥22。在重放过程中不会强制执行严格的时间对齐,因为真正的机器人并不总是能像人手一样快速操作。
Fig.6
展示了灵巧操作,例如在“打开牙膏”的操作中,左手稳定地握住牙膏管,右手的拇指和食指灵活地打开微小的瓶盖,这些动作对于通过远程操作捕捉来说极具挑战性。这凸显了模型在未来现实世界的策略学习中的潜力。
4.6 Abalation Studies
Tactile Information as Auxiliary Input
在第 3.3 节中,以三种方式将触觉信息(特别是接触力
C
C
C)整合到流程中:作为观察输入、作为鼓励接触的奖励成分、作为提前终止的条件 分别标记为
w
/
o
C
o
b
s
w/o\quad C\quad obs
w/oCobs、
w
/
o
C
r
e
w
a
r
d
w/o\quad C\quad reward
w/oCreward和
w
/
o
C
t
e
r
m
w/o\quad C\quad term
w/oCterm 的消融研究Fig.7 (a)
表明,在奖励函数中加入
C
C
C 可以提高任务成功率,而将
C
C
C 作为观察结果可以加速收敛。删除
C
C
C 作为终止条件似乎可以提高初始训练性能,但会降低整体收敛速度,这突显了稳定接触在任务完成中的重要性。
Training Strategy
采用课程学习策略开始训练,该策略包括:(1) 放松重力效应;(2) 增加摩擦力影响;(3) 放松“手指”和“物体”的阈值。消融研究Fig.7 (b)
分别标记为“无放松重力”、“无增加摩擦力”、“无放松阈值”。实验表明对于精确、复杂的双手运动,在早期阶段忽略重力并使用高摩擦系数可以加速收敛并获得更高的整体 SR。如果不在初始阶段放松阈值约束,网络可能无法完全收敛。
4.7 DEXMANIPNET for Policy Learning
为了评估 DEXMANIPNET
的潜力,基于一项基础策略学习任务重新排列评估了代表性的模仿学习方法。专注于将瓶子移动到目标位置,根据瓶子当前和目标的 6D 姿态、环境状态(包括桌面上的障碍物)、灵巧手的本体感觉,该策略会生成一系列机械手动作来拾起瓶子并将其放置在目标位置。
作者评估了四种具有代表性的模仿学习方法:两种基于回归的行为克隆方法 IBC
和 BET
、两种以 UNet 和 Transformer 为backbone的DP方法。每种策略都使用 DEX-MANIPNET
中涉及瓶子重排任务的 140 个序列中的 85% 进行训练,并使用剩余的 15% 进行评估。对每个序列执行 20 次 rollout。如果物体的最终位置在目标 10 cm 以内,则认为 rollout 成功。
如Table.2
所示,由于任务难度和灵巧手动作空间的复杂性,所有方法的表现均未达最优。尤其是基于回归的行为克隆方法容易出现误差累积。这些结果凸显了灵巧操作任务的内在挑战,这些任务需要精确的手指控制和有效的物体操控。
5. Conclusion and Discussion
MANIPTRANS
MANIPTRANS
是一个两阶段框架,能够高效地将人类的操作技能迁移到灵巧的机械手上。通过残差学习将手部运动模仿与物体交互分离,MANIPTRANS
克服了形态差异和复杂任务的挑战,确保了高保真运动和高效的训练。实验表明,MANIPTRANS
在运动精度和计算效率方面超越了 SOTA 方法,同时还展现出跨实体的适应性和在现实世界部署的可行性。此外,可扩展的 DEXMANIPNET
为推动实体人工智能的发展树立了新的标杆。
Discussion and Limitations
尽管 MANIPTRANS
能够成功处理大多数 MoCap
数据,但某些序列无法有效执行。作者认为主要有以下两个主要原因:
- 交互姿势中的噪声过多;
- 用于模拟的对象模型不够精确,尤其是对于包含铰链连接方式的对象。
增强 MANIPTRANS
的鲁棒性并生成物理上可信的对象模型是未来研究的重要方向。