这篇笔记用来描述 2025年 的一篇有关 VLA 领域的论文。这篇论文的研究与之前大部分VLA模型不同,其从通用动作空间抽取动作原子信息而不是直接用图像预测动作序列。根据作者实验可得仅用0.5B参数得模型就可以达到当前SOTA模型的水准,并且能够以非常低的成本(微调参数总量0.8%的头部部分)适配不同控制接口的设备。
写在最前面
为了方便你的阅读,以下几点的注意事项请务必了解:
- 该系列文章每个字都是我理解后自行翻译并写上去的,可能会存在笔误与理解错误,如果发现了希望读者能够在评论区指正,我会在第一时间修正错误。
- 阅读这个系列需要你有基本的 VLA, LLM, VLM 相关基础知识,有时候我会直接使用英文名词,因为这些词汇实在不容易找到符合语境的翻译。
- 原文可能因为版面限制存在图像表格与段落不同步的问题,为了更方便阅读,我会在博文中重新对图像表格进行排版,并做到引用图表的文字下方就能看到被引用的图表。因此可能会出现一张图片在博客中多处位置重复出现的情况。
- 对于原文中的图像,我会在必要时对图像描述进行翻译并附上我自己的理解,但如果图像描述不值得翻译我也不会强行写上去。
Basic Information
- 论文标题:Universal Actions for Enhanced Embodied Foundation Models
- 原文链接: https://arxiv.org/abs/2501.10105
- 发表时间:2025年03月08日
- 发表平台:arxiv
- 预印版本号:[v2] Sat, 8 Mar 2025 13:55:48 UTC (13,112 KB)
- 作者团队:Jinliang Zheng, Jianxiong Li, Dongxiu Liu, Yinan Zheng, Zhihao Wang, Zhonghong Ou, Yu Liu, Jingjing Liu, Ya-Qin Zhang, Xianyuan Zhan
- 院校机构:
- AIR, Tsinghua University;
- Sensetime Research;
- Peking University;
- Beijing University of Posts and Telecommunications;
- Shanghai AI Lab;
- BAAI;
- 项目链接: https://2toinf.github.io/UniAct/
- GitHub仓库: https://github.com/2toinf/UniAct
Abstract
在多样化的互联网规模数据上进行训练是近期大型基础模型成功的关键因素。然而,使用相同的方法构建具身智能体面临着明显的困难。尽管有许多众包具身数据集可用,但由于不同机器人的物理具身和控制界面不同,它们的动作空间往往表现出显著的异质性,这给使用跨域数据开发具身基础模型带来了巨大的挑战。本文介绍了 UniAct
一个在通用动作空间中运行的新型具身基础建模框架。学习到的通用动作通过不同机器人共享的结构特征来捕捉它们之间的通用原子行为,并通过消除差异性来增强跨域数据利用率和跨具身泛化能力。只需添加特定于具身的细节,就可以将通用动作有效地转换回异构可操作命令,从而快速适应新机器人变得简单而直接。0.5B
规模的 Uni-Act
模型在对各种现实世界和仿真机器人的评估中,均达到了 SOTA 基础模型的 14 倍,展现出卓越的跨体现控制和自适应能力,凸显了采用通用动作的关键优势。项目页面:https://2toinf.github.io/UniAct/
1. Introduction
在自然语言处理和计算机视觉等领域,基于海量多样化数据源训练的基础模型已展现出显著的成功和强大的泛化能力,凸显了学习通用模型相较于特定任务模型的优势。受这些成功的启发,开发能够处理跨任务、跨环境、跨本体现泛化的多功能具身基础模型,为构建通用具身智能体提供了一条充满希望的途径。
然而,数据的巨大异质性也带来了重大挑战。这种异质性不仅体现在由摄像机位置变化(例如手腕或第三人称视角)和环境条件(例如光照或背景变化)引起的视觉差异中,更重要的是动作异质性:
- 具有不同结构的机器人(如不同自由度或机械臂、四足动物、汽车之间的区别)拥有完全不同的动作空间;
- 控制接口的多样性(如机械臂的末端执行器 (EEF) 位置或速度控制器)导致动作命令的物理含义根本不同;
- 人类行为的多模态性 也会加剧这种异质性,即使是在同一个平台用同一套硬件设备采集;
因此,跨不同机器人和机构采集的具体动作数据往往位于原始物理空间内很大程度上不相交的流形上(例如,末端执行器的位置和旋转),这大大增加了不同数据源之间数据共享的复杂性。
目前,尚无现有解决方案能够充分解决动作异质性问题。大多数先前的研究强制将不同的动作空间视为等同空间,并应用相同的离散化或规范化技术,从而导致动作空间可能存在冲突,相似的动作编码可能代表完全不同的物理含义。尽管一些研究试图通过简单地聚合所有单个动作空间来设计一个可物理解释、适用于各种机器人系统的动作空间,但这需要大量的人体工程学研究,并且无法揭示和利用不同具身动作空间之间的内在联系,从而阻碍了通用具身基础模型的有效开发。
在本文中介绍了 UniAct
(Embodied founda- tion models with Universal Actions)一种构建在通用动作空间而非复杂异构动作空间中的新型具身建模框架。在 UniAct
中学习到的通用动作对通用原子行为进行编码,这些行为可在不同的机器人平台上推广,而不受特定具身机制和控制界面的限制。例如,不同的机器人在面对正前方目标时应该执行类似的“向前移动”行为,尽管由于具身差距而表现出完全不同的控制信号,但这种抽象超越了特定本体和控制约束,使其能够普遍适用于不同的机器人平台,为增强跨具身数据利用和模型泛化提供了巨大潜力。从这个意义上讲,最少的参数和数据足以将通用动作解码为特定于实施例的动作,因为一般运动行为已经可以在通用空间中被捕获,并且解码器只需要为每个机器人平台添加一些实施例细节,从而能够在新的机器人系统部署期间进行有效适应。
UniAct
采用共享VLM将通用动作空间构建为矢量量化码本(类似于可学习的技能库),每个编码都封装了一个足够灵活的原子行为供不同的机器人执行。这种配置驱动 VLM 识别和利用跨不同动作空间的共享原子行为。该方案可以有效地泛化跨实施例控制的行为,使 0.5B
规模的 UniAct-0.5B
在各种任务中都超越了 14 倍大的模型(如 7B
参数的 OpenVLA
)。通过简化的异构解码器,可以将派生的通用动作转换为针对各种实例的精确、可操作命令,解码器将通用动作作为条件输入,利用来自于具体化的观测数据特征对其进行增强,这样就允许根据特定需求进行灵活改写,如包含或排除本体感受特征或改变摄像机视图数量。只需添加新的头部作为新任务的轻量级解码器,即可快速适应新领域或机器人平台。作者在对具有挑战性的任务(包括大视角变化和训练数据中不存在的隐形机器人)进行的全面评估证实了 UniAct
卓越的可迁移性,展示了在通用动作空间内开发具身基础模型相对于传统异构空间的巨大优势。
2. Related Work
Multimodal Foundation Models
LLM在各种任务中展现出卓越的能力,尤其展现了令人印象深刻的zero-shot学习和上下文学习能力。在此基础上,VLM通过将视觉和语言集成到统一的标记空间中而得到发展,展现出卓越的多模态指令遵循能力。它们的成功主要归功于广泛的互联网规模预训练,这种预训练利用了来自互联网的海量且多样化的高质量数据语料库。
Embodied Foundation Models
在开发具身基础模型时,训练过程中会纳入一个关键的额外模态——动作(机器人能够解释和执行的可部署控制信号,例如 EEF 位置/速度)。最先进的模型通常构建为VLA,将视觉和语言输入与可操作的输出相结合。然而,从不同机器人平台和实验室采集到的动作标签表现出显著的异质性,阻碍了不同来源之间有效的数据共享。为了规避这一挑战,许多研究采用大规模无动作视觉语言数据,例如领域外的人类活动。首先基于可用的具身 VLM,然后根据特定机器人平台的一小组动作标签将其微调为专门的 VLA。虽然这些方法可以提高特定机器人在特定任务集上的采样效率,但在构建通用具身代理方面面临严重的性能瓶颈,因为从任何单个机器人平台采集到的动作数据远不如在全球范围内收集的众包数据全面。
一些近期的研究利用丰富的异构动作标签来开发用于跨具身控制的通用机器人策略。RT-X
系列、Octo
和 Open-VLA
利用来自不同 7 自由度机器人的数据来增强相对于在单一机器人源上训练的机器人的泛化能力;CrossFormer
、RDT
、π0
等人探索了来完全不同机械结构的机器人的数据,例如操作和导航中的机器人,以及单臂与双手系统的数据。然而,现有的研究要么忽略了不同来源动作空间的异构属性,粗略地将它们视为等价而不考虑固有的冲突,要么将所有动作空间聚合在一起,未能利用不同机器人之间潜在的共享共性。
Embodied Models with Latent Action Spaces
本文的工作旨在提取一个类似多功能的通用潜在动作空间,编码各种机器人平台上的常见原子控制行为和模式。LAPA
、IGOR
和 LAPO
通过在无动作标签视频上逆向联合自监督训练和正向动力学模型来探索潜在动作空间。然而这种方式提取的潜在动作主要侧重于解释视频帧之间的变化,缺乏与实际控制信号的直接因果关系,例如假设在机器人前面添加一个新物体,视觉输入会发生变化,但这与控制行为无关,理想的编码动作不应该捕获这种分散的信息。 BeT
、VQ-BeT
和 QueST
也通过 K 均值聚类或矢量量化的形式构建了离散的动作码本,其中码本中的每个code都为动作标签编码一个不同的聚类中心。这些研究主要关注单一动作表现类型的较简单领域,强化了多种模式对复杂人类演示进行建模的能力,但难以解决不同表现之间的动作异质性。相比之下,作者的通用动作表示将来自与本体无关的语言模态目标信息与实际动作信号的监督相结合,提供了一个多功能且抽象的技能库,以促进跨体现共享。此外,还深入研究了更复杂的异构环境,并开发了一个大型表示基础模型,超越了先前研究中考虑的有限范围。
3. The UniAct Framework
作者介绍了 UniAct
一个具身化的基础建模框架,旨在运行于通用动作空间中,擅长弥合领域差距并促进大规模异构数据的训练。首先讨论通用动作的理想性质,然后详细讨论从异构跨具身数据中提取和解码通用动作的模型架构与学习方案。
3.1. Universal Action Space
理想的通用动作空间是指所有由来自不同实体的异构控制信号驱动的动作,尽管物理性质各异,但都能被提炼为共享的潜在原子行为。将这些抽象的行为表征称为通用动作,在所有物理实体之间共享。
探索离散的通用动作空间十分重要,这源于离散表示在复杂推理、规划和预测学习中展现出的强大能力,正如 LLM、VLM、矢量量化变分自编码器那样。作者将通用动作空间建模为 U ∈ R N × D U\in R^{N\times D} U∈RN×D,并使用矢量量化码本来实现,表示为
U = ( u 1 , u 2 , … , u N ) U=(u_{1},u_{2},\dots,u_{N}) U=(u1,u2,…,uN)
其中 N N N 是空间大小,每个 u i u_{i} ui 是一个表示通用原子行为的 D D D 维向量嵌入。
先前的几项研究也尝试了类似的概念,即通过将动作推断为两帧视觉观察到的动态变化来构建通用的潜在动作。然而,该方案存在两个关键限制,导致通用动作空间不够理想且噪声较大:
- 观察到的变化不仅包括机器人的部分,还包括与实际控制没有因果关系的外部因素(例如,新物体的出现、人类干预等);
- 两次观察之间的间隔对提取的原子行为的语义解释有至关重要的影响,使得跨不同数据源的标准化行为解释变得复杂。
3.2. Universal Action Extraction
为了导出理想的通用动作空间,作者提出了一种提取的新方法,不仅仅强调观察结果的解释变化,而更多注重理解任务进展。具体来说,微调了一个大型VLM作为通用动作提取器,它输出在给定观察值 o o o 和任务目标 g g g(例如语言教学)的情况下选择通用动作 u u u 的似然值 p ( u ∣ o , g ) p(u|o, g) p(u∣o,g),与具体数据编码的原子行为相匹配的相应通用动作 u ∗ u^{*} u∗ 满足:
u ∗ = arg min u ∈ U p ( u ∣ o , g ) u^{*}={ \underset{u \in U} {{\arg\min}}p(u|o,g) } u∗=u∈Uargminp(u∣o,g)
类似于潜在空间中的规划,提取器推断出观察 o o o 下解决给定任务 g g g 最相关的通用动作,从而设计与任务进展直接相关的通用动作,而不仅仅是识别嘈杂的观察变化。利用 VLM 来实现上述操作,因为它具有强大的视觉语言推理能力。在学习通用动作时,对预训练的 VLM 进行微调也能大大提高样本利用率。但该提取器在跨域泛化上存在关键信息瓶颈,因为不同的机器人强行使用相同的离散码本 U U U 来捕捉所有域中的通用和共享原子行为。
这是由于不可微的argmax
函数阻碍了梯度传播。因此在训练过程中使用了分类重参数化,并利用Gumbel-Softmax
来进行梯度估计。具体而言,前向过程如下:
u ∗ = ∑ i = 1 N w i u i u^{*}=\sum^{N}_{i=1}w_{i}u_{i} u∗=i=1∑Nwiui
其中
w
i
w_{i}
wi 是每个通用动作
u
i
u_{i}
ui 的权重,使用 Gumbel Softmax
函数计算:
w i = e x p ( ( log p ( u i ∣ o , g ) + ϵ i ) / τ ∑ k = 1 n e x p ( ( log p ( u k ∣ o , g ) + ϵ k ) / τ w_{i}=\frac{exp((\log p(u_{i}|o,g)+\epsilon_{i})/ \tau}{\sum^{n}_{k=1}exp((\log p(u_{k}|o,g)+\epsilon_{k})/\tau} wi=∑k=1nexp((logp(uk∣o,g)+ϵk)/τexp((logp(ui∣o,g)+ϵi)/τ
其中,
ϵ
i
\epsilon_{i}
ϵi 是从 Gumbel
分布中采样的 Gumbel
噪声;
τ
\tau
τ 是用于平滑概率分布的温度。为了优化训练初期的参数空间探索和模型收敛的稳定性,在训练过程中逐渐衰减温度
τ
\tau
τ。通用动作提取器如Fig.2
所示,更多详细信息请参阅Appendix. A
。
3.3. Heterogeneous Decoding
为了高效地将通用动作空间中高度抽象的行为转化为精确的、特定于具体实施的控制信号,如何整合更多具体动作细节至关重要,例如控制类型、本体感受、不同的观察结果。为了解决这个问题,作者引入了一系列轻量级解码器头以适应每种具体实施类型,表示为 H = ( h 1 , … h k , … h K ) H=(h_{1},\dots h_{k},\dots h_{K}) H=(h1,…hk,…hK),其中 K K K 是训练域的数量。每个解码器头 h k h_{k} hk 都经过专门设计,用于学习从通用动作 u ∗ u^{*} u∗ 和视觉观察 o o o 到域 k k k 中具体的异构控制信号的映射。每个解码器头 h k h_{k} hk 的操作可以表述为:
a ^ ( k ) = h k { u ∗ , o } \hat{a}^{(k)}=h_{k}\{u^{*},o\} a^(k)=hk{u∗,o}
其中 a ^ ( k ) \hat{a}^{(k)} a^(k) 是预测的控制信号。由于参数过多的复杂解码头可能会过度拟合目标域的数据分布,因此所有异构头都被实现为简单的MLP网络,这些网络以共享视觉主干部分提取到的 u ∗ u^{*} u∗ 和视觉特征 o o o作为输入。通过轻量级解码头部,确保了大部分训练能够针对通用动作,从而最大限度地提高跨不同实施例的泛化能力。
3.4. Training Procedure
UniAct
的主要学习目标是提炼一个跨不同实例的共享通用动作空间,其关键特征是这些通用动作能够精确地转换回特定领域的控制信号。为了实现这一点,该模型使用
K
K
K 个异构数据集
D
=
(
D
1
,
…
D
k
,
…
D
K
)
D = (D_{1},\dots D_{k},\dots D_{K})
D=(D1,…Dk,…DK) 进行训练。每个
D
k
D_{k}
Dk 包含一系列机器人控制轨迹
τ
i
(
k
)
=
{
o
i
,
t
(
k
)
,
a
i
,
t
(
k
)
,
g
i
}
1
≤
t
≤
T
\tau^{(k)}_{i}=\{o_{i,t}^{(k)},a_{i,t}^{(k)},g_{i}\}_{1\leq t\leq T}
τi(k)={oi,t(k),ai,t(k),gi}1≤t≤T,
τ
i
(
k
)
\tau^{(k)}_{i}
τi(k) 是最大长度
T
T
T 的第
i
i
i 条轨迹,包含观测值、动作、目标。具体来说,UniAct
将
o
o
o 和
g
g
g 作为输入,使用通用动作提取器预测通用动作
u
∗
u^{*}
u∗,然后使用异构解码头将其与
o
o
o 一起映射到
a
^
(
k
)
\hat{a}^{(k)}
a^(k)。总体训练目标如下:
min u , θ ∑ k = 1 K E a i ∈ τ i , τ i ∈ D k L k ( a ^ ( k ) , a i ( k ) ) \min_{u,\theta}\sum^{K}_{k=1}E_{a_{i}\in\tau_{i},\tau_{i}\in D_{k}}L_{k}(\hat{a}^{(k)},a_{i}^{(k)}) u,θmink=1∑KEai∈τi,τi∈DkLk(a^(k),ai(k))
L
k
L_{k}
Lk 是行为克隆损失,可根据每个数据集中动作标签的性质进行定制,例如,对离散动作采用交叉熵,对连续动作采用 MSE、Huber 损失或扩散损失。对上面的训练目标进行优化,以学习通用动作码本
U
U
U 和通用动作提取器和所有异构解码头的参数
θ
\theta
θ。虽然
U
U
U 和通用动作提取器在每次训练迭代中同时更新,但异构头
h
k
h_{k}
hk 是根据特定于领域的采样训练批次进行更新的。这种训练策略反映了许多元学习方法中的理念,它既学习适应相关任务的全局共享参数,也学习下游任务性能的特性任务部分。通过这种方法,UniAct
完善了一个强大、自适应的通用动作空间以及可以与不同实例和特定操作环境无缝集成的解码策略。
4. Experiments
这部分首先描述 UniAct
框架的具体实现,然后对以下问题而进行的评估实验:
- 通用操作能否提领域跨度较大的各种实例的执行性能;
- 通用动作能否无缝转移到新的、未曾见过的实例;
UniAct
能否够学习到有意义的通用动作空间;
4.1. Experiments Setup
Implementation Details
本文在异构数据源上构建了 UniAct-0.5B
模型,以探索通用动作空间
U
∈
R
256
×
128
U\in R^{256\times 128}
U∈R256×128。具体而言,UniAct-0.5B
建立在 LLaVA-OneVion-0.5B
之上,后者是一个预训练好的 VLM,可以提供全面的多模态表示。UniAct-0.5B
的训练在 64 块 A100 GPU 与 DeepSpeed
配置上完成,历时 10 天,使用了从 28 个不同数据集合中选择的 100 万个演示,训练集结合了几个开源机器人模型,包括 Open-X embodiment
、Libero
、 Droid
,并经过标准化以包含第三人称视觉观察和语言指令,同时保留动作异构性。有关训练和数据构建的更多详细信息,请参阅Appendix. A
。
Baseline Setup
作者选择了三个SOTA VLA,包括 Octo
、CrossFormer
、OpenVLA
,以及一个 SOTA 预训练的 VLM 模型 LAPA
作为基线。Octo
和 CrossFormer
参数为 0.1B;OpenVLA
采用离散动作 7B 参数自回归架构,在大约 100 万个没有动作异质性的机器人演示上进行训练,例如将所有绝对 EEF 位置预处理为相对 EEF 位置并删除关节位置动作;LAPA
也是一个 7B 模型,但不使用动作标签,而是通过捕捉基于相同机器人演示帧之间的视觉变化来构建潜在动作。为了让 LAPA
能够生成真实动作,需要对动作标签进行进一步微调;UniAct-0.5B
是在来自相同数据源的同等规模数据上进行训练的,但没有上述的数据预处理动作。将 UniAct
与基线模型进行比较,以证明其从异构数据中提取通用动作的有效性。
4.2. Main Results
为了评估 UniAct-0.5B
的跨实例泛化能力,对现实世界的 WidowX
机器人和仿真环境的 Franka
机器人进行了“开箱即用”的评估。这两个平台在先前的研究中常用于测试通用机器人策略的有效性,并且存在相当大的领域差距。鉴于训练数据集包含这两个实例的数据,可以利用预训练的异构头将通用动作无缝地转换回可部署的控制信号。
Real-World Robot Evaluation
作者为现实世界的机器人定义了一套全面的评估任务,涵盖了泛化的几个维度:视觉、运动、物理、语义、语言基础。每个模型都要经过 190 次部署进行评估,分布在 19 个任务上,每个任务进行 10 次试验,更多详细信息请参见Appendix. B
。代表性任务和结果如Fig;3
所示。
为了让 LAPA
适应 WidowX
机器人,在 Bridge
数据集上对其进行了约 2K 梯度步骤的全调。UniAct-0.5B
在视觉、运动、物理泛化任务中的表现优于 14 倍参数的 OpenVLA-7B
和 LAPA-7B
。这表明,从异构数据中提取通用动作对于增强对视觉干扰的鲁棒性和低级控制泛化具有显著的好处。虽然 OpenVLA
利用 7B 主干网实现卓越的语义理解和语言基础能力,但 UniAct-0.5B
在语义泛化和语言基础任务中也实现了相当的性能,凸显了其效率和有效性。
Simulation Evaluation
由于基线模型最初不是在仿真数据上训练的,因此在 LIBERO
平台上对它们进行微调。用于训练 UniAct
和基线模型的数据在任务、数据量和图像质量方面完全一致。有关更多详细信息请参阅Appendix. A
。基准测试包含五个套件中的 130 个任务:LIBERO
的Spatia
、Object
、Goal
、Long
、-90
数据集。LIBERO-90
包含 90 个任务,而其他四个各包含 10 个任务。结果见Fig.4
。
UniAct-0.5B
在所有数据中都超越了基线模型,整体平均准确率的显著提升。这种卓越的性能可以归因于 UniAct
弥合领域差距和提取可泛化的原子行为的能力。通过利用来自各个领域的演示来学习通用动作,UniAc
t 显著提高了 LIBERO
基准上的任务性能。
4.3. Fast Adaptation to New Embodiment
Experiment Setup
为了评估快速适应能力,在真机 AIRBOT
(Fig.5
)上进行了评估。包含四种不同的控制器接口:相对/绝对 EEF 位置和 相对/绝对关节位置。UniAct
和其他基线模型均未在 AIRBOT
数据上进行预训练。作者在这个机器人平台上收集了 100 个包含四种不同类型控制接口的演示。考虑到这些控制接口之间存在显著的异质性,需要对基线模型进行微调,并确保模型收敛性符合官方要求(例如,OpenVLA
的预测准确率为 95%)。
Fast Adaptation with UniAct
与需要大量训练才能弥补不同动作类型之间差距的基准模型不同,UniAct
可以快速适应新的实例与控制接口。由于已经学习了跨具体化行为,通过冻结码本和通用动作提取器来促进快速适应。同时,利用收集到的演示,针对每种动作类型从头开始训练四个异构解码头。每个新引入的解码头都由一个简单的多层感知器 (MLP) 实现,该多层感知器将来自共享视觉主干网络的
u
∗
u^{*}
u∗ 和视觉特征
o
o
o 作为输入。
Evaluation
使用简单和困难版本的“将魔方堆叠在另一个魔方上”任务进行了评估,结果如Fig.5
所示。UniAct-0.5B
在所有类型的控制信号上都表现出了持续强大的泛化能力,超越了两个基线模型。此外,UniAct-0.5B
用于微调的参数数量与总模型大小的比例最小(4M / 500M:0.8%)。相比之下,OpenVLA
和 Octo
分别使用了其总模型大小的 1.4%(97M / 7000M)和 2%(2M / 100M)。这种高效的参数利用率凸显了 UniAct 在将学习到的通用动作应用于新任务和实施方案方面的有效性和适应性,同时最大限度地减少了参数空间扩展。
4.4. Fast Adaptation to New Decoder Head
作者进一步测试了将 ACT
集成到 UniAct-0.5B
中是否可以用更先进的解码器来提高性能。冻结 UniAct-0.5B
,并使用头部视图、两个腕视图、本体感知的观察结果将其适配到双臂 AIRBOT
机器人。为 4 项任务每项任务收集 250 个演示,并将 UniAct-0.5B
与预训练的 LLaVa-OV-0.5B
模型进行比较。Table.1
显示了 UniAct
的性能,验证了其预训练的有效性。
此外,在 LIBERO
基准上使用 ACT
解码器对 UniAct-0.5B
进行微调,使用头部视图、腕视图和本体感知。如Fig.4
所示,UniAct
取得了进一步提升,证明了其对高级解码器和更丰富观察的适应性。有关详情,请参阅Appendix. B.4
。
4.5. In-depth Analysis of Universal Actions
在本节中,从两个角度证明了 UniAct
构建了一个有意义的通用动作空间:
- 一致的语义行为在不同的实例中被编码为相同的通用动作;
- 通用动作提取器可以有效地利用不同机器人的通用动作空间的共享结构;
Interpretation of Universal Actions
检查所有 256 个通用动作在不同机器人上的解码行为,并观察到其中至少 40% 表现出完全一致性。Fig.6
表明,即使存在巨大的差异,通用动作也可以解码成不同机器人的一致行为。例如,即使视角不同,甚至仿真与现实之间存在巨大差异的机器人,在给定相同通用动作的情况下,也可以执行类似的语义上有意义的行为。
Control with the Universal Action
通过选择一系列通用动作直接与机器人交互,使其执行所需的行为。Fig.7
表明,无需任何机器人知识(例如学习复杂的正/逆运动学变换)也可使用通用动作控制机器人。这也凸显了将通用动作提取器用作动作标记器的潜力,通过在这个离散的通用动作空间中进行规划,可以促进未来部署更先进的具身基础模型。
Statistical Analysis For Universal Action Utilization
这里总结了不同机器人在不同任务中的通用动作利用率分布。Table.2
显示,相同任务和不同机器人的分布相似,但不同任务和相同机器人的分布不同。这表明,通用动作提取器确实能够正确地利用这些与具体化无关的原子行为,因为它更关注任务进展而非具体化细节。
5. Conclusion
作者推出了 UniAct
一个新的具身基础建模框架,在通用动作空间中运行,以解决动作异构性问题。该通用动作空间对跨不同具身动作空间的可共享原子行为进行编码,从而显著增强跨域数据利用率并促进跨具身泛化,0.5B 参数模型的性能优于规模大 14 倍的 SOTA 模型。此外,通过异构解码,学习到的通用动作可以精确地转换为具有最少参数的具身特定动作,从而快速适应不同控制接口和物理特性的新型机器人。此外,学习到的通用动作提取器还可以用作通用动作标记器,为未来构建大规模具身基础模型提供支持。目前,UniAct
使用 0.5B 参数实例进行训练,并且由于资源限制,主要在单臂机器人平台上进行评估,未来的工作将专注于将 UniAct
扩展到更大的模型,并将其扩展到更广泛的实例,包括双手机器人甚至自动驾驶,进一步在更多的机器人应用中利用其多功能能力和有效性。