论文看多了有点乱,为了方便直接找到看的重要的项目地址、代码和参考文章,并梳理研发思路,记个笔记
首先声明,本文仅代表个人观点,由于博士的抽象属性加成,有些说法就是纯个人口 high
更推荐先阅读 roboVLM 再进入 π0
每篇论文的 pretained 中的数字都过于小众,果然微调才是唯一出路
目录
A. Pre-training and post-training(预训练与后训练)
B. Language and high-level policies(语言与高层策略)
C. Robot system details(机器人系统细节)
B. Vision-Language-Action Models
E. Discussions about Structures
***3.3 The π0.5 Model and Training Recipe
B. Combining discrete & continuous action representations
***4.2 GR00T N1 Foundation Model
4.2.2 Training Data Generation
E. Additional Training Details
5.2 Joint Policy Learning and World Modeling Objective
1 首推 — π0
VLA 个人感觉现阶段首推 — π0,毕竟企业开源的比高校成熟度还是高一点的,以及背后做了很多隐藏工作:
🌐 Project Website:Our First Generalist Policy
Github:GitHub - Physical-Intelligence/openpi
中文解读可参考:π0——用于通用机器人控制的VLA模型:一套框架控制7种机械臂(基于PaliGemma和流匹配的3B模型)_pi0模型-CSDN博客
1.1 综述
π0 提出一种新的流匹配(flow matching)架构,搭建在预训练视觉-语言模型(VLM)之上,能够继承互联网上的大规模语义知识
设计这类架构的基本逻辑如下:
1. 虽然 LLM 和 VLM 表现出了广泛的指令理解和问题求解能力,但它们不像人类那样真正“嵌入”在物理世界中,它们对物理交互的理解完全基于抽象描述。如果要让这些方法在实现人类级物理环境适应性方面取得实质性进展,就需要用“具身机器人 agent”的物理数据来训练它们
2. 在 NLP 和 CV 领域,用多任务、多样数据预训练的基础模型通常优于狭义的专用模型。例如,如果目标是识别照片中的鸟,先用多样的图像-语言关联数据进行预训练,然后微调或用提示适配到鸟类识别,比只用鸟类数据训练更高效。同样道理,对于专业机器人系统,先在高度多样化的机器人数据上进行预训练,再微调或提示到具体任务,将更有效。这能解决数据稀缺难题,因为通用模型可以利用更多类型的数据——包括其他任务、其他机器人,甚至非机器人来源的数据。同时,丰富的数据覆盖了更多观察和动作场景,包含多种场景、纠错与恢复行为,提升了泛化和鲁棒性。
3. 开发通用机器人策略(即机器人基础模型)面临诸多挑战。首先,需要大规模实验,因为小规模时预训练带来的益处往往无法体现。其次,需要设计能充分利用多样数据、同时精准建模复杂物理交互行为的模型架构。最后,需要科学的训练流程——这是最关键因素之一,因为NLP和CV领域的大模型进步高度依赖于预训练和后训练数据的精细策划
4. 本文提出了原型模型和学习框架 π0,展示如何逐步攻克上述三大瓶颈
***1.2 π0 模型架构综述

π0 模型和系统架构:
- 为融合多样数据,首先采用预训练的 VLM 引入互联网级别经验,使模型具备通用知识、语义推理和问题求解能力
- 进一步训练模型,使其能输出机器人动作,变为VLA模型
- 为了让模型兼容多种机器人平台的数据,采用跨具身体训练(Open X-Embodiment),将多种机器人(单臂、双臂、移动底盘等)数据统一进同一模型
- 为实现灵巧复杂任务,引入 action chunking 架构并结合流匹配(diffusion 变体)方法对复杂连续动作进行建模,可实现如叠衣服等 50Hz 高频控制
- flow matching 与 VLM 结合,采用了创新的 action expert 模块,提升模型的动作建模能力
- 如同语言模型一样,架构只是方法的一部分。要实现复杂任务的灵活与鲁棒,还需合理的训练流程。采用类似于超大规模语言/视觉-语言模型的“预训练/后训练”分离策略,先用大规模多样数据预训练,再用更小且高质量的数据微调,实现所需的灵巧、效率和鲁棒
- 直观上,只用高质量数据训练,模型学不到如何从错误中恢复,因为这种数据几乎不包含错误;只用低质量预训练数据,模型又缺乏高效与鲁棒性。两者结合,模型既能尽量模仿高质量示范,也有丰富的恢复与纠错手段
核心创新点:
- 此前的 VLA 模型多采用自回归的离散化方法,将动作表示为类似文本 token 的序列。而本论文采用了新颖的方式,将 VLM 微调为可通过流匹配(flow matching,一种扩散变体[32, 28, 20, 46])直接生成动作。像Zhou等人[59],本文用diffusion-style(flow matching)loss在序列每一元素上训练模型,而不是传统decoder-only transformer的交叉熵loss;又如Liu等人[29],为扩散相关token设计独立参数
- 本论文的目标之一是研究复杂灵巧行为,因此采用了超大规模数据集,包含约1万小时示范,并辅以开放数据OXE[10]。证明了类 LLM 的“预训练/后训练”recipe 能极大提升模型效果:预训练给予模型宽泛知识基底,后训练用高质量数据精调出目标行为
1.3 模型与训练流程概览

- 首先,预训练数据由两部分加权混合组成:一是自有的灵巧操作数据(详见V-C),包括7种机器人、68个任务;二是OXE开源数据集[10],覆盖22种机器人。预训练的目标是让模型获得广泛能力和泛化性,但不专门优化某一任务的极致表现。得到的基础模型可理解语言指令,初步完成多种任务
- 对于高难度/灵巧任务,采用后训练(微调)流程(详见V-A),用高质量小规模数据针对下游具体任务进一步适配
- 模型结构以 PaliGemma 视觉-语言模型[5]为主干,并在其基础上用上述数据进行进一步训练。为了让 PaliGemma 具备控制机器人能力,添加了基于 flow matching[32, 28] 的动作输出模块,能直接生成连续动作分布。之所以选 PaliGemma,是因其体积较小,便于实时控制,但整个框架对任何VLM主干都兼容
1.4 π0 模型架构细节
-
π0 模型核心是 transformer 语言模型主干,遵循 “late fusion” 视觉-语言模型架构(如Flamingo、PaLM-e等),即:图像通过编码器后,和语言 token 一起送入 transformer,处于统一 embedding 空间。为适应机器人任务,在输入/输出侧扩展了机器人专用 token,包括本体状态(proprioceptive state,如关节角度等)和机器人动作(action)。
-
动作输出部分用**条件流匹配(conditional flow matching)**来对连续动作分布建模,使得高精度、多模态、高频控制成为可能,尤其适用于灵巧操作。架构灵感来自 Transfusion:用一个 transformer 同时输出连续变量(用 flow matching loss 监督)和离散变量(用交叉熵 loss监督)。在此基础上,给机器人token(状态、动作)分配一套独立参数(即 action expert)能显著提升表现,这类似于 Mixture-of-Experts 结构:主干负责图像/文本,action expert 负责机器人专用信息
-
数学上,模型要拟合的目标分布是 p(At∣ot):给定观测 ot(包含图像、语言指令、本体状态),预测未来动作块 At(长度为H=50步)。每个观测 ot 由多张 RGB 图片(通常2-3张)、一段语言指令 token 序列和本体状态(关节角等)组成。图像和本体状态分别由专用 encoder 处理,最后都投影到和语言 token 一样的 embedding 空间,与文本一起进入 transformer 主干
-
每个动作都作为 token 输入action expert,训练用 conditional flow matching loss,流程与 diffusion 模型类似:
-
对每个action chunk At,采样噪声 ϵ,用 τ 混合得到 noisy action Aτt。网络输出
拟合“去噪场”
,损失就是两者的L2范数。action expert 内部所有动作 token 全互相可见(bidirectional attention),支持高效建模 chunk 内动作相关性。训练时,τ按 beta 分布采样,侧重更“噪声大”的 timesteps,有利于模型泛化和去噪
-
推理时,从高斯噪声出发,通过 Euler 法沿 flow field 迭代,逐步生成动作块:
-
实验中用10步,每步δ=0.1。为加速推理,模型对观测部分 ot 的注意力可缓存,仅需对 action token 部分多次前向,更细节见附录D
-
理论上,主干 VLM 可选任意结构,甚至支持从零训练。实验用 PaliGemma(3B参数)为基础,加上 action expert(300M参数),总共 3.3B 参数,详细架构见附录B。还训练了无 VLM 预训练的小模型 π0-small(470M参数),架构做了适当简化,用于消融实验,专门评估 VLM 预训练对任务泛化的提升作用,具体结构差异详见附录C
1.5 数据收集与训练流程
A. Pre-training and post-training(预训练与后训练)

- 预训练数据混合来源见上图。每个样本是(观测,动作块)的二元组(ot, At),所以数据量都以 timestep 计量。其中9.1%为开源数据,包括OXE、Bridge v2、DROID等。这些开源数据集的机器人通常只有1-2个摄像头,控制频率较低(2-10Hz),但覆盖了极其多样的物体和环境。为学会更灵巧和复杂的任务,本项目采集了9.03亿步自有数据,其中单臂机器人1.06亿步,双臂机器人7.97亿步。共68个任务,每个任务内包含极其复杂和多样的行为(比如“bussing”任务,涉及不同器皿、餐具、垃圾的分拣搬运等)。这里的“任务”远比以往只用“名词+动词”就算一个任务的定义更宽泛,所以实际行为覆盖极广。
- 由于不同任务/机器人组合数据量不平衡(复杂任务如叠衣服比例很高),为防止样本偏置,采用n^0.43加权,n为该组合的样本量,多的被下调权重。所有机器人的配置和动作向量都扩展到最大机器人的维数(本论文为18维,包括两只6自由度机械臂、两个夹爪、一个移动底盘和一个升降机构),不够的用0填充;图像不足三张的机器人,用 mask 标记缺失通道。
- 后训练阶段用小规模但高质量的特定任务数据对模型进行微调,以适应目标下游任务。正如前述,这里的“任务”定义非常宽泛,一个bussing任务就包括了多类物体和操作。不同任务所需数据量差异很大:简单的只需5小时,最复杂的(如洗衣、移动操作)则需100小时以上。
B. Language and high-level policies(语言与高层策略)
更复杂的任务(如 bussing 桌面)涉及语义推理和高层决策,这时可用高层策略将抽象任务(如“bus the table”)分解为具体子任务(如“拿起餐巾”、“丢到垃圾桶”)。由于 π0 模型能处理语言输入,可结合高层 VLM 进行语义决策推理,这类似 SayCan 等 LLM/VLM 规划范式[2]。作者实验中多处采用此高层策略辅助模型完成复杂任务(详见第VI章)
C. Robot system details(机器人系统细节)

数据覆盖了7种不同配置的机器人、68类任务,概括如下:
-
UR5e: 单臂+平行夹爪,2路摄像头,7维动作空间
-
Bimanual UR5e: 双 UR5e 臂,3路摄像头,14维动作空间
-
Franka: 单臂+2摄像头,8维动作空间
-
Bimanual Trossen: 双 6DoF Trossen 臂,ALOHA结构,3摄像头,14维动作空间
-
Bimanual ARX/AgileX: 双 6DoF ARX 或 AgileX 臂,3摄像头,14维动作空间
-
Mobile Trossen/Mobile ARX: 移动底盘+双臂,16维动作空间,3摄像头
-
Mobile Fibocom: 双臂+全向底盘,17维动作空间,3摄像头
1.6 Appendix 更多细节
B. Model Architecture Details
π0模型架构在 PaliGemma 视觉-语言模型(VLM)基础上有三点核心改进:
-
增加了机器人专用 token 的输入/输出投影(如状态向量 qt 和动作向量 At)
-
为 flow matching 的时间步 τ 引入了额外的 MLP 处理结构
-
新增一套较小的参数子网络(action expert)专门处理动作相关 token
Additional inputs and outputs(输入输出扩展):
-
标准 PaliGemma 输入:一串图片 token + 一个语言 prompt token。π0增加了机器人本体状态 qt 输入,用线性映射投影到 transformer embedding 维度
-
最后一组输入 token 是“带噪动作块”Aτt(长度为动作块 H=50),每个 token 对应一步带噪动作
-
transformer 输出中,仅取这 H 个动作 token,对应的输出通过线性映射成为 flow field 向量
Incorporating the flow matching timestep(引入flow matching时间步):
-
每个带噪动作 aτt′ 经过线性层 W1 变换,再和 sinusoidal 编码的 τ 拼接 ϕ(τ),接着过 MLP (W2、swish、W3),最终变为 embedding。这样使每一步动作 token 都明确感知当前 flow matching 的时间步τ,对建模扩散轨迹非常关键。d为动作维度,w为 embedding 宽度
Attention mask(注意力mask设计):
-
π0 采用三块结构的因果注意力 mask:
-
图像+语言 token(第一块):全互相可见,不能看未来块
-
机器人状态 token(第二块):自成一块,不可看未来
-
动作 token(第三块):动作 token 间全互看,同时可看所有前面块内容
-
-
设计动机:前两块内容在 flow matching 每步推理时都是定值,可缓存,动作 token 每次采样时只需前向自身那一块,提升推理效率。这样既兼容 VLM 主干的预训练分布,也最大化动作生成效率
Action expert(动作专家模块):
-
整体为单一 transformer,但有两套独立参数(expert)。token 根据类型路由给不同专家,只有在 self-attention 层参数共享。图像/语言 token 送进 VLM 主干(PaliGemma),状态/动作 token 送入 action expert(专用子网络)
-
主干 VLM 用 Gemma 2B 的配置,动作专家用较小的{宽度1024, MLP 宽度4096},共约3亿参数,推理效率高。专家之间的参数(如宽度、MLP)可各自独立,不必统一。
Sampling the flow matching timestep(flow matching时间步采样):
-
原始 flow matching 论文用 τ 均匀分布采样,有的文献建议采样中间timesteps。本文认为“动作条件生成”比图像更难,观测 ot 提供了极强约束,因此重点训练高噪声(低 τ)时段
-
实验采用偏向低 timesteps 的 Beta 分布,且大于阈值 s 的 τ 不采样。允许最多1000步 integration,这种采样策略更适合机器人动作生成的特点
D. Inference
模型推理时,每次需要输入观测ot(多张图片、语言 token、本体状态)和带噪动作 Aτt,输出 vector field(流场)vτt,用于 flow matching 生成动作块
推理过程:
- 首先对所有图片进行编码
- 对观测 token(图片、语言、本体状态)进行一次前向推理(forward),其 attention 的 key/value 可以缓存
- 每做一次 flow matching 迭代(共10步),只需对动作 token 重新 forward(更快)
实验中,用3路相机的机器人,在 NVIDIA RTX 4090 显卡上计时。移动机器人推理在云端,通过 Wi-Fi 连接,会有额外网络延迟。更进一步的优化(如模型量化、异构部署等)还有空间。
每次推理生成一个动作块(H 步动作),可以连续执行 H 步后再推理一次,也可以更频繁推理(提高响应性)。此项目实验了不同动作融合策略(如 temporal ensembling),发现反而降低性能,因此最终采用“open-loop”模式——每个动作 chunk 直接执行,不做多推理结果融合
在 20Hz 控制频率的 UR5e 和 Franka 上,每 0.8 秒推理一次(即每16步);50Hz 平台每 0.5 秒推理一次(每25步)
1.7 扩展链接
OXE:Open X-Embodiment: Robotic Learning Datasets and RT-X Models
DROID:DROID: A Large-Scale In-the-Wild Robot Manipulation Dataset
ARX:ARX-方舟无限
Trossen:https://www.trossenrobotics.com/mobile-ai
2 最具价值 — RoboVLM
VLA 个人感觉目前最具价值的项目 — RoboVLM,真的做了我非常非常想做但算力羞涩的工作,可以算是 π0 的最优解补充证明论文了
🌐 Project Website:RoboVLMs: What Matters in Building Vision-Language-Action Models for Generalist Robot Policies
Github: https://github.com/Robot-VLAs/RoboVLMs
Checkpoints:https://huggingface.co/robovlms/RoboVLMs
中文解读可参考:
RoboVLM——通用机器人策略的VLA设计哲学:如何选择骨干网络、如何构建VLA架构、何时添加跨本体数据-CSDN博客
2.1 综述
Vision-Language-Action 模型(VLA)是通过对 Vision-Language 模型(VLM)进行微调,以实现通用的机器人策略,这些策略能有效感知、理解环境并执行交互任务。然而,现有VLA模型在骨干模型选择、动作预测结构、训练数据分布和训练策略等方面差异较大,因此缺乏系统性的设计方法论
为了解决上述问题,此项目最关键探索回答了基于VLM 构建 VLA 的四个核心问题:
1. Why do we prefer VLAs;
2. Which backbone to use;
3. How to formulate the VLAs;
4. and When to use cross-embodiment data as an extra data source
基于上述四点研究,开发了一个新的 VLAs 系列 — RoboVLMs
2.2 算法逻辑及研究方法
RoboVLMs 是一种新的框架,方便将 VLM 转换为 VLA,并进行公平的比较
此项目基于两个机器人基准测试进行评估:CALVIN 和 SimplerEnv
针对上述四个核心问题的综述答案如下:
================================分割线================================
1. 为何偏好使用 VLA?
基于预训练 VLM(视觉-语言模型)构建的 VLA(视觉-语言-动作模型),已经被证明对于实现通用型机器人策略既高效又有效。在所有实验中——无论是仿真还是真实机器人操作任务——此项目的 VLA 模型都以显著优势超越了现有开源的最先进 VLA 模型。此外,预训练的 VLM 还展现出显著的泛化能力和数据效率优势,这使其在真实世界机器人应用中极具吸引力
2. 哪种VLM骨干网络更适合VLA?
此项目在8种不同的 VLM 骨干网络上进行了广泛实验,结果显示有两种模型表现尤为突出——KosMos 和 Paligemma,这两者远超其他同类。实验结果强调了充分的大规模视觉-语言预训练对于获得卓越VLA性能的关键作用
3. 应如何设计VLA模型结构?
大量实验结果显示,连续动作空间(continuous actions)的表现始终优于自回归离散动作(auto-regressive discrete actions);而引入历史上下文信息对于提升性能、应对部分可观测环境也非常重要。在模型结构上,将 VLM 直接与policy head(策略头)结合的架构表现最佳。具体来说,这种做法能够保证视觉-语言 token 以其原始预训练格式进行处理,并通过额外的 policy head 融合过去的视觉与本体感觉信息,从而实现更有效的决策。最后,更大的 VLM 模型在数据效率上也有优势,即用更少的数据获得更高的性能
图:VLA 结构主要从两个维度进行划分:1. 动作空间(action space,纵轴):即输出的动作是连续的还是离散的;2. 是否整合历史信息(history information,横轴):即模型在决策时是否利用了历史观测/动作信息。进一步地,对于那些包含历史信息的VLA结构,我们又根据历史信息的组织方式,将其细分为 policy head 和 interleaved 两种结构:1. Policy head(策略头):将每个历史步骤的特征分别处理,最后通过策略头统一融合历史信息;2. Interleaved(交错式):将观测和动作的历史序列按交错格式编码进模型
4. 什么时候应当利用跨形态(cross-embodiment)数据集?
尽管业界普遍认为利用跨形态数据进行预训练或后续训练(post-training)能够提升模型表现,但这一假设其实并没有经过严格验证。我们的实验发现,单纯用跨形态数据进行预训练,并不能持续带来显著的性能提升。然而,如果先用跨形态数据预训练模型,再在目标任务数据集上做 finetune(后训练),则可以获得明显的性能提升。此外,直接利用来自同一机器人或同类型任务的数据,也会对性能带来直接而显著的提升。
从上面几点可以总结得到:
1. π0也极有可能是在多种 VLM 架构比较后选择了 Paligemma
================================分割线================================
为了解决上述4个关键问题,进一步细分为6个研究问题:
为了评估 VLA 模型的性能,评估方案如下:
1. 两个模拟基准测试 :CALVIN 和 SimplerEnv
2. 一个真实机器人基准测试:GR-2
3. 评估方法:GR-MG 对每个模型在一种简单设置和四种具有挑战性的未见过的设置上进行测试,对每个 VLA 在20项任务上进行评估,每项任务有5种设置(1+4),每种设置进行3次运行,报告每种设置的平均成功率
这些基准测试中包含的所有任务均由单臂机器人驱动。因此,输出:产生一个 7 自由度的动作——夹爪的 6D 位姿和一维的开合状态;输入:机器人可以通过本体感觉信息、视觉观察和语言输入获取观察结果
从上面几点可以总结得到:
1. 目前可以在相同的验证方法上验证自己的模型
================================分割线================================
接下来开始一个问题一个问题分析:
A. Why do we prefer VLAs;
Question 1: Are VLAs a proper choice for building generalist robot policies?
这个问题想看具体结果看论文,结论显而易见:
Finding 1: VLA is a promising path to generalist robot policies.
Question 2: How do VLAs perform in real-world scenarios?
这个问题想看具体结果看论文,结论梅开二度:
Finding 2: The best setup VLA built by RoboVLMs appears strong effectiveness and robustness in real scenarios.
================================分割线================================
接下来重点来了:
B. How should we formulate VLAs?
Question 3: What is the best-performing VLA structure?
对比结果如下:
one-step:单步;interleaved:交错;policy head:策略头;discrete(Disc.):离散,continuous(Cont.):连续
所以结论三大核:
- Continuous action matters
- History observation matters
- Policy head improves history fusion
Finding 3: The VLA achieves its best performance when using multi-step historical observations as inputs and continuous actions as outputs. For integrating history with continuous action space, the policy head structure performs better.
Question 4: How do different formulations affect the generalization and data efficiency for VLAs?
除了性能本身之外,VLA 模型面临的最重要挑战之一是实现对新物体和环境设置的泛化
为了通过实证研究来测试评估各种 VLA 的泛化能力和数据效率,方案如下:
使用 CALVIN 数据集,在不同的数据规模上训练具有不同架构和形式的模型,评估基于 RoboVLM 构建的不同 VLA 的泛化能力和数据效率
根据图中结果可以得到以下结论:
- For generalization performance,模型架构对泛化能力有显著影响,基于 KosMos 模型骨干并利用策略头进行历史融合效果最佳
- For data efficiency,规模较大的模型往往具有更高的数据效率,最佳模型始终能取得最高的性能
Finding 4: Leveraging policy head for history fusion is the best in terms of generalization and data efficiency.
从上面几点可以总结得到:
1. 性能方面:连续动作空间 √ 历史观测 √ 策略头 √;
2. 泛化能力方面:策略头 √;
3. 最优选择:基于 KosMos 模型骨干并利用策略头进行历史融合√
================================分割线================================
***C. Which VLM backbone is better for VLAs?
综上,可以最终确定最优解为:在 VLA 中使用策略头来进行历史融合
此后的关键问题为:
Question 5: Which type of VLMs is most suitable for constructing VLAs?
这就是最重要的问题啦!!!
接下来,基于一系列具有不同架构、训练数据规模、模型大小和潜在嵌入的预训练大规模视觉语言骨干模型构建 VLAs,包括 Flamingo 模型系列(编码器 - 解码器)以及一系列仅解码器的 VLM,如 LLaVA、Qwen-VL、MoonDream、UForm、Paligemma 和 KosMos
为了进行公平比较,所有模型均使用静态图像进行训练
结果表明:Kosmos 与 Paligemma 展现出显著优越的性能,这两个骨干模型以明显优势超越其他模型。其卓越性能得益于在大型视觉语言数据集上的充分预训练。这一结果符合预期,因为大规模预训练能强化视觉与语言特征的对齐能力——这种对齐对语言条件控制任务至关重要
Finding 5: VLAs benefit from the sufficient vision-language pre-training on large vision-language datasets of VLMs backbone.
从上面几点可以总结得到:
1. Kosmos/Paligemma 的成功证明:特征对齐质量直接决定任务上限,而实现高精度对齐的核心引擎正是海量优质的预训练数据
2. Paligemma 虽然效果最好,但是 token/DataScale/ModelSize 都比较大,综合考虑的话更加建议选用 Kosmos
3. 有个很有意思的细节:Paligemma 凭借10B预训练数据实现跨模态理解质的飞跃,但是 Kosmos仅用 90M 数据+64token 达成顶级表现,证明高质量数据价值 > 数据堆砌;即当 data≥10B,出现了 Paligemma 级的性能爆发,但是高 token 视觉语言任务依赖语义抽象而非像素级细节,过量 token 反而引入噪声
================================分割线================================
D. When should we leverage cross-embodiment datasets?
利用大规模跨实体机器人操作数据集来提升 VLA 模型的性能已成为主流趋势。然而,这种方法存在一个重要的问题:
Question 6: How do large-scale cross-embodiment datasets contribute to VLAs?
为了解决这个问题,可以进一步将问题拆分为两个子问题:
在大规模跨模态数据集中,哪些类型的数据对于构建视觉语言模型最为有益?
- 这些数据应在何时以及如何才能得到有效利用?
为此,进行了两种设置:
- 预训练(Pre-train):使用领域内操作数据与跨本体数据集联合预训练模型(RT-2、OpenVLA、OCTO采用)
- 后训练(Post-train):先在跨本体数据集训练 VLM,再用领域内操作任务微调(π0采用)
实验设置:
-
基础模型:性能最优的 KosMos 骨干 + 历史融合策略头
-
跨本体数据集:Open X-Embodiment (OXE),涵盖全球采集的多机器人操作数据
-
对比基线:
-
Finetune:仅用领域内数据训练
-
RT Partial Finetune(Google Robot专用):仅微调与评测任务同类型的轨迹
-
RT Finetune(Google Robot):跨任务联合微调(同机器人额外数据)
-
Bridge Finetune:使用完整Bridge-V2数据集微调
-
最终可以发现:同机器人跨任务数据比跨本体数据更有效,领域微调方案超越纯领域微调,表明跨本体预训练提供优质参数初始化,跨本体预训练学习到可快速迁移的通用操作表征
Finding 6: Extra in-domain data, even from different tasks, shows beneficial, and large-scale cross-embodiment pre-training further improves overall as well as few-shot performance.
从上面几点可以总结得到:
1. π0 赢麻了,基本最优解就是:跨本体预训练 -> 同机器人数据微调 -> 目标领域精调;
2. 同机器人数据价值最高,即使任务不同,其动力学特性、传感器噪声等本体专属信息仍具高迁移性。跨本体数据却有局限性,不同机械臂的关节约束、末端执行器特性差异导致直接迁移失效;
3. 小样本场景铁律:当领域数据<100条时,必须采用跨本体预训练(CALVIN实验证明),颠覆了“大数据万能”的认知,揭示机器人学习需遵循 「本体优先,通用为辅」 原则——跨本体数据的核心价值在于解决冷启动问题,而非替代领域专属知识获取。隐藏证明了我一直好奇的一点:不同结构机器人之间数据是否具备通用性:有,但有限,这样强化学习直接干加码了。
================================分割线================================
2.3 结论与展望
首先,验证了上述四个核心问题:
| 问题 | 发现 |
|---|---|
| Why | VLA具备高性能与强泛化能力,是通用机器人策略的有效路径 |
| Which | 需选用经大规模视觉语言预训练的 VLM 骨干 |
| How | 历史观测融合至关重要,策略头(policy head)比交错融合(interleaved)更高效 |
| When | 跨本体预训练提升小样本性能,但领域内数据不可或缺 |
有个很有意思的结论:
骨干选择铁律(Which):
1. 预训练数据阈值:需在 >1B 图文对数据集预训练(如 LAION-5B)
2. 架构警示:
- 避免直接使用纯视觉骨干(如 CLIP)或纯语言模型(如 GPT)
- 必须选择多模态融合架构(如 Kosmos 的 Transformer-XL)
从上面几点可以总结得到:
1. 架构设计第一性:VLA 不是 VLM 的简单扩展,需重新设计多模态交互机制(参考 π0 模型的专用动作通路)
2. 数据配比黄金法则:跨本体数据:领域数据 = 3:7 时泛化性能最优
3. 边缘部署新思路:采用知识蒸馏将 RoboVLMs 压缩至<100MB(当前模型>3GB)
================================分割线================================
2.4 理论基础
A. Vision Language Model
1. 机器人控制问题定义:
基于语言指令 l 和历史观测序列 ot−H+1:t(最大历史长度 H),控制桌面机械臂完成任务。观测 ot=(st,It) 包含传感器数据与图像(第三方视角/夹爪相机)。控制策略建模为:
动作 a 为 7维向量:夹爪6自由度位姿(3D位置+3D朝向)+ 开合状态
2. 视觉语言模型(VLM)基础:
VLM(多模态大语言模型)通过联合处理视觉与文本输入生成文本:
-
I:输入图像
-
lprompt:文本提示(如视觉问答中的问题)
-
l^:生成文本(如答案)
3. 训练目标:最小化交叉熵损失
通过数十亿图文对预训练,VLM学习鲁棒的多模态表征。
4. 视觉处理器核心组件:
(1)图像分块嵌入(ViT):
将图像分割为 N 个块(patch),编码为视觉 token 序列
(2)特征压缩(Perceiver Resampler):
可选模块,降低 token 数量(如256 -> 64)
5. VLM两大架构范式:
| 类型 | 结构特点 | 融合机制 | 代表模型 | 适用场景 |
|---|---|---|---|---|
| 编码器-解码器 | 分离式编码器与解码器 | 解码器交叉注意力 | Flamingo, OFA | 需深度理解输入的任务(图像描述、视觉推理) |
| 仅解码器 | 统一处理多模态输入 | 自注意力自然融合 | GPT-4V, LLaVA | 开放式生成、指令跟随 |
B. Vision-Language-Action Models
1. VLA 动作序列预测
VLA 作为通用策略 π 处理复杂任务:
-
输入:历史观测 ot−H+1:t(含本体感知状态 st−H+1:t 和视觉输入 It−H+1:t)和语言指令lprompt
-
输出:未来 L 步的7维动作序列(6D位姿+夹爪状态)at:t+L−1
L 表示动作序列的长度,H 表示历史观测的长度
2. 动作预处理
(1)归一化处理
采用分位数归一化保证动作值在有效范围内:
将各维度动作压缩到[-1,1]区间,夹爪状态直接映射到{-1,1}
(2)离散化处理
对归一化后的动作进行256级离散化:
添加偏移量10避免与语言 token 冲突
3. 动作预测损失
(1)连续动作损失
组合位姿 MSE 损失和夹爪 BCE 损失:
(2)离散动作损失
逐维度交叉熵损失:
C. VLA Structures
VLA 结构根据动作空间和历史聚合方法分为四类,即:单步连续动作模型 (one-step-continuous-action models)、单步离散动作模型 (one-step-discrete-action models)、交错连续动作模型 (interleaved-continuous-action models) 和策略头连续动作模型 (policy-head-continuous-action models)。此项目所提出的框架 RoboVLMs 可以轻松地将 VLMs 迁移到任意 VLA 结构
(1)单步模型 (One-step Models):
单步模型仅利用当前时间步 t 的观测(即历史长度为 1)来预测未来的动作序列
对于单步模型,制定了两种变体:连续动作模型和离散动作模型:
连续动作模型 (Continuous-action model): 在连续动作公式中,VLM 模型首先使用 VLM 骨干网络预测一个可学习 token [LRN]。这是通过融合视觉和语言 token(在编码器-解码器架构中)或连接多模态 token(在纯解码器架构中)实现的。然后使用一个 MLP 来预测动作向量:
单步连续动作模型包括 ACT,BC-Z,MVP,R3M,VIMA,3D Diffuser,RoboMamba,和 π0
离散动作模型 (Discrete-action model): 对于离散动作预测,直接遵循与 VLMs 相同的直接下一个词预测方式,其中动作被离散化为类似文本的 token:
单步离散动作模型包括 RT-1,RT-2,3D-VLA,LAPA,OpenVLA 和 EmbodiedCOT
2) 交错连续动作模型 (Interleaved-Continuous-Action Models):交错模型接收观测-动作序列:
其中 Ot 表示时间 t 的输入 token 序列,[OBS] 表示观测 token,[LRN] 表示可学习的动作 token,它被复制 H 次并以交错格式插入到 Ot 中。VLM 骨干网络融合该序列(在纯解码器结构中),并基于每个动作 token 通过 MLP 预测动作序列:
用于预测动作块 aˆt:t+L−1 的 [LRN]t,代表插入在 [OBS]t 之后并与 t 之前的观测融合的 [LRN]。其损失函数和动作反规范化过程与单步连续动作模型相同。在推理的时间步 t,输入序列仅包含当前观测 [OBS]t 和语言指令 lprompt,在输入序列末尾添加可学习 token [ACT] 并将序列传递给 VLM 以预测动作。机器人执行预测的动作后,我们将新的观测 [OBS]t+1 和语言指令 lprompt 添加到输入序列中,以预测当前步骤的动作
交错连续动作模型包括 GR-1,OCTO,GR-2。注意,像 GATO 和 RoboCat 这样的交错离散动作模型不在考虑范围内
3) 策略头连续动作模型 (Policy-Head-Continuous-Action Models):
与在 VLM 骨干网络内部融合历史信息的交错模型不同,策略头 VLA 仅要求 VLM 在每个时间步 t 提供单步多模态表示:
然后,通过一个额外的策略头 h(如 RNN,Transformer,或扩散模型)对历史信息进行建模并预测动作:
长度为 L 的动作块 at:t+L−1 是基于可学习 tokens [LRN]t−H+1, ..., [LRN]t 预测的。每个 [LRN]t 是相同的
请注意,交错连续动作模型仅适用于纯解码器骨干网络。策略头连续动作模型可以基于编码器-解码器和纯解码器结构的 VLM 骨干网络构建。主要区别在于语言解码器。编码器-解码器 VLM 的输入序列仅融合文本和可学习动作 tokens,它通过交叉注意力融合多模态输入,其中文本 tokens 与可学习 tokens 组合作为键和值,视觉 tokens 作为查询。纯解码器骨干网络直接将视觉、语言和可学习 tokens 连接作为输入,并利用自注意力融合多模态特征
策略头连续动作模型包括 RoboFlamingo,RoboUniview 和 DeeRVLA
在推理的每个步骤 t,当前观测 [OBS]t、语言指令 lprompt 以及一个可学习令牌 [LRN] 被连接成一个完整的输入序列,然后传递给 VLM 骨干网络。策略头获取 [LRN] 并预测当前动作序列后,机器人执行预测的动作并获得新的观测,用于下一轮预测
1. 动作空间 (Action Space):动作是连续的向量 (Continuous-action) 还是离散的 token (Discrete-action)
2. 历史聚合方法 (History Aggregating Method):模型如何利用过去的观测和/或动作信息 (History)
- 单步 (One-step): 仅使用当前时刻的观测
- 交错 (Interleaved): 将历史观测和对应的(可学习)动作 token 交错输入骨干网络融合
- 策略头 (Policy-head): VLM 骨干仅处理当前观测,一个独立的策略模块(如 RNN, Transformer)负责融合历史表示并预测动作
四类模型特点总结:
| 模型类别 | 动作空间 | 历史聚合方法 | 关键特征 | 代表模型 |
|---|---|---|---|---|
| 单步连续动作 (One-step Continuous) | 连续 | 无历史 (仅当前帧 | VLM 输出一个 | ACT, BC-Z, MVP, R3M, VIMA, 3D Diffuser, RoboMamba, π0 |
| 单步离散动作 (One-step Discrete) | 离散 | 无历史 (仅当前帧 | VLM 直接输出离散的动作令牌 | RT-1, RT-2, 3D-VLA, LAPA, OpenVLA, EmbodiedCOT |
| 交错连续动作 (Interleaved Continuous) | 连续 | 交错融合 (历史帧 | 输入是历史 | GR-1, OCTO, GR-2 |
| 策略头连续动作 (Policy-head Continuous) | 连续 | 策略头融合 (VLM 输出历史各步的 | VLM 为每步 | RoboFlamingo, RoboUniview, DeeRVLA |
D. Real Robot Platform
平台构成: 机械臂(Kinova Gen-3)、夹爪(Robotiq 2F-85)、两种摄像头(静态全局视角的 Kinect Azure 和腕部局部视角的 RealSense D435i)以及工作环境(特定尺寸的桌子)
评估设置: 核心目的是测试 VLA 模型在不同挑战下的泛化能力。定义了五种评估场景:
- 简单设置 (Simple): 基线测试,验证模型在接近训练环境下的基本能力
- 未见干扰物设置 (Unseen Distractors): 测试模型在存在新干扰物时的鲁棒性和专注力(操作目标物体是见过的)
- 未见背景设置 (Unseen Backgrounds): 测试模型视觉感知对背景变化的鲁棒性
- 未见物体设置 (Unseen Objects): 测试模型操作全新物体的泛化能力(最具挑战性之一)
- 新技能描述设置 (Novel Skill Description): 测试模型对语言指令的理解和泛化能力,特别是对动词同义词的适应性
E. Discussions about Structures
具有离散动作空间的交错模型 (interleaved models) 和策略头模型 (policy-head models) 迄今为止尚未实现,因为交错模型通常与动作块预测 (action chunk prediction) 结合使用,其默认的下三角注意力掩码 (lower triangular attention mask) 无法有效地屏蔽后续时间步的动作(以供后续步骤预测)
3 最受期待的升级 — π0.5
π0 升级版,主要升级在于:对未知环境具备了更强的泛化能力
🌐 Project Website:
A VLA with Open-World Generalization
📄 Paper:https://www.physicalintelligence.company/download/pi05.pdf
Github:(尚未开源)
中文解读可参考:π0.5——离散化token自回归训练,推理时则用连续动作表示,且加强推理(同一个模型中先高层拆解出子任务,后低层执行子任务)-CSDN博客
3.1 综述
基于 π0 的新模型 π0.5:
- 利用来自多台机器人、高层语义预测、网络多模态数据等多源信息,支持在真实世界中的通用操控
- 结合了联合训练与混合多模态示例,这些示例同时包含图像观测、语言指令、目标检测、高层子任务预测以及低层动作
- 首次演示了一个端到端学习驱动的机器人系统,能够在全新家居环境中完成长时程、精细的操控技能,比如厨房或卧室清理

在 π0 VLA 的基础上,引入移动操控、静态臂、实验室演示、高层标注、网络多模态与语言指令等多种数据源,构建了 π0.5 (“pi oh five”) 模型,使其可在未见过的新家居环境中控制移动机械臂执行家务任务。具体而言,π0.5 综合了:约400小时真实家庭移动机器人数据;多环境静态机器人数据;实验室跨设备任务数据;要求预测高层语义子任务的示例;人类口头指令演示;以及网络多模态数据(图像字幕、问答、目标定位)。在第一个训练阶段,97.6%的示例并非直接来源于移动家务操作,而来自非移动机器人或网络数据。尽管如此,π0.5 依然能够在全新未见家居中执行如挂毛巾、整理床铺等复杂长时程操作(10–15分钟),仅凭单一高层提示完成厨房或卧室的全面清理。
π0.5 的设计遵循简单的层次化架构:首先在异构任务混合上进行预训练,然后在移动操控领域针对低层动作示例和高层‘语义’动作(如预测‘拿起菜板’或‘整理枕头’子任务标签)进行微调。在推理时,模型每一步先预测语义子任务,再基于该子任务生成低层动作序列,从而既能推理长时程多阶段任务,又可利用低层动作数据与高层语义知识的互补优势:低层依赖其他机器人动作示例,高层受益于网络语义与人类指令
众多先前工作表明,将端到端策略与高层推理相结合,能够显著提升长时程任务的执行性能[2,36,44,74,71,4,16,11,53,88,51,59,13,70,91,65,72,47,76,89],尤其是当高层子任务推断可以受益于大规模预训练的语言或视觉-语言模型时
此项目的方法同样采用了两阶段推断流程:首先推断一个高层语义子任务(例如“拾取盘子”),然后基于该子任务预测具体动作
许多先前方法使用两个独立模型实现这一步骤 —— 一个视觉-语言模型进行语义步骤预测,另一个低层策略执行这些步骤[2,71,13,24,70,72,47]。而此项目的做法在同一模型中同时完成高层与低层推断,更接近于“链式思考”或测试时计算(test-time compute)的方法,但与已有的实体化链式思考方法不同,高层推断仍以较低频率运行于低层动作推断之前
3.2 Preliminaries
视觉-语言-动作模型(VLAs)通常通过模仿学习在多样化的机器人示范数据集 D 上训练,目标是最大化在给定观测 ot 和自然语言指令 ℓ 情况下,生成动作 ata(或更一般地,一段动作序列 )的对数似然:
其中,观测 ot 通常包含一帧或多帧图像 及机器人本体状态 qt(关节位置等)。VLA 架构借鉴了现代语言与视觉-语言模型,配备模态专属的分词器,将图像、文本与动作分别映射到“硬”离散或“软”连续的 tokens 表示,再由大型自回归 Transformer 主干网络进行下一令牌预测。模型权重通常来自预训练的视觉-语言模型。通过将策略的输入与输出都 tokens 化,便可将模仿学习转化为一维的 tokens 序列下一个令牌预测问题,从而利用深度学习的可扩展优化技术进行训练
在实践中,图像与文本的 tokenizers 遵循主流视觉-语言模型的设计。对于动作,先前工作提出了高效的压缩式方案(如 FAST)[64],此项目在预训练阶段即采用此方法。近来一些 VLA 模型又引入了扩散(diffusion)[55,84,52]或流匹配(flow matching)[8]机制来更灵活地表达连续动作序列分布。在本文的后训练阶段,此项目基于 π0 模型[8]的设计,使用流匹配来生成动作:在每个采样步骤,动作 tokens 接收上一步的部分去噪动作作为输入,输出对应的流场矢量,用以迭代还原完整动作序列。为此,这些动作 tokens 使用了与主 Transformer 不同的权重子集,称为**“动作专家(action expert)”**,类似专家混合架构。该专家网络可专门用于流匹配生成,参数量可显著小于整体大模型
***3.3 The π0.5 Model and Training Recipe

π0.5 模型权重首先由网络数据预训练得到的标准 VLM 初始化,随后分两个阶段训练:
-
预训练阶段(pre-training stage):目的是让模型适应多样化的机器人任务
-
后训练阶段(post-training):专门针对家庭场景下的移动操控进行微调,并为模型配置高效实时推理的机制
在预训练阶段,所有任务(包括机器人动作任务)均用离散 token 表示,从而实现简单、可扩展和高效的训练。后训练阶段,则引入一个“动作专家”,类似于 π0 模型,用于更精细地表达动作,并在实时控制下实现更高的推理效率。推理时,模型首先生成机器人应执行的高层子任务,再据此通过动作专家预测低层动作
接下来,将详细介绍模型架构以及各阶段的具体训练任务
A. The π0.5 Architecture
π0.5 的架构既能表达动作片段分布,也能生成 token 化的文本输出——后者既可用于协同训练(如视觉问答),也可用于分层推理中的高层子任务预测
模型刻画的联合分布为 πθ(at:t+H, ℓ̂ | ot, ℓ),其中:
- ot = [I₁t, ..., Iₙt, qt],包含所有摄像头图像和机器人当前状态(关节、抓手、升降、底盘速度等)
- ℓ 是总体任务提示(如“把餐具收拾好”)
- ℓ̂ 是模型生成的token化文本输出,可以是预测的高层子任务(如“捡起盘子”),也可以是视觉-语言任务的答案
- at:t+H 是模型生成的动作片段
该分布可以分解为:
![]()
即:动作的生成只依赖于已预测的高层子任务 ℓ̂,与原始指令 ℓ 无关。因此,推理过程分为高层推理(预测 ℓ̂)和低层推理(预测 at:t+H),两者都由同一个模型完成
- “层次化推理-控制”分解:高层负责语义/子任务生成,低层负责连续动作规划,且两者在同一大模型下联合训练与共享知识
- 和 GR00T N1 逻辑想法太相似了,背后肯定大量试错
- π0.5 架构思路非常清晰:上层 VLM 进行动作分解,下层进行动作生成,说白了就是 π0.5 进入了第二阶段,就是长任务规划
模型本质上是一个 Transformer,接受 N 个多模态输入 token x₁:N(这里 token 可以是离散的也可以是连续的),输出一组多模态 token y₁:N,可以写成:y₁:N = f(x₁:N, A(x₁:N), ρ(x₁:N))。每个 xᵢ 可以是文本 token、图像 patch,或是流匹配中的中间动作值。观测 ot 和提示 ℓ 作为 x₁:N 的前缀输入。不同 token 类型通过 ρ(xᵢ) 指示,可由不同子编码器甚至不同 transformer 专家权重处理:如图像 patch 通过视觉编码器,文本 token 经嵌入矩阵,动作 token 线性投影进特定专家分支。A(x₁:N) 为注意力掩码,决定 token 之间的可见性——与普通 LLM 单向因果注意力不同,图像、文本和连续动作 token 间采用双向注意力
模型的输出分为两部分:(yℓ₁:M, yₐ₁:H),前 M 个用于文本 token 预测(如高层任务、视觉问答等),后 H 个由单独的动作专家生成,并线性映射为连续动作输出 at:t+H。注意 M+H≤N,并非所有输出 token 都用来回传损失。机器人本体状态也被离散化后作为文本 token 输入
更多结构细节见附录E
B. Combining discrete & continuous action representations
与 π0 一样,π0.5 最终采用流匹配(flow-matching) [50]来预测连续动作:通过采样 aτ,ω = τa + (1-τ)ω, ω为高斯噪声,τ为时间索引,训练目标是预测流向量(ω - a)。
但如[64]所示,用离散 token(如FAST)训练 VLA 收敛更快,但这种离散化不适合实时推理,因为需要高延迟的自回归采样
理想方案是在训练阶段用离散 token(提升效率),推理阶段还能用流匹配输出连续动作(提升速度和精度)。因此,π0.5 在训练中同时拟合两种动作表示(自回归 token+流匹配),并用注意力掩码隔离两类动作 token 互不泄漏信息。损失函数为两者加权和,其中 α 控制 trade-off
该策略支持先以 VLM-Transformer 的 token 自回归做预训练(α=0),再追加动作专家(非自回归)实现后训练,提升推理效率和泛化能力。实际推理时,文本 token 用自回归采样,动作用流匹配专家经过若干迭代去噪生成
C. Pre-training

在第一阶段预训练中,π0.5 采用标准自回归 Transformer,拟合多种机器人和非机器人数据,统一训练文本 token、物体位置 token 和 FAST 编码动作 token 的下一个 token 预测
- MM:移动操控器,约400小时100家不同家庭的移动机器人家庭任务演示,最贴近下游评价
- ME:多环境非移动臂数据,单/双臂固定式机器人在家居环境下的数据,扩充跨机型与场景多样性
- CE:跨机型实验室数据,包括实验室里不同机器人和台面环境的多种任务,涵盖高相关和低相关任务,以及OXE开源数据
- HL:高层子任务预测,将复杂任务拆解为子任务文本标签,训练模型先预测子任务再输出动作,辅助模型学会“链式思考”
- WD:多模态网络数据,包括大规模图像-文本对、问答和物体检测框,提升模型对真实场景与物体的理解和零样本泛化能力
- 数据归一化:所有动作数据归一化到[−1,1],统一动作维度,不足补零,文本提示中特别声明控制模式
D. Post-training
在用离散 token 训练28万步后,进入后训练阶段:一方面针对家庭移动操控场景微调模型,另一方面加入流匹配动作专家以生成连续动作片段。后训练阶段继续同时优化文本 token 预测(保持语言理解能力)和流匹配损失(动作专家,初始权重为随机)。该阶段共8万步,α=10。训练数据为 MM/ME 中成功且长度低于阈值的 episode,并继续混入 WD、HL 和新增的语言演示(VI):由专家用户实时用语言分步“遥操作”机器人完成任务,生成优质的高层子任务文本演示
E. Robot system details

实验使用了两种移动机器人平台:均配备两个6自由度机械臂(平行爪、腕部单目相机)、全向轮底盘、升降结构。底盘状态与动作为 2D 线速度+ 1D 角速度,升降为 1D 或 2D。每个机器人还装有前后相机(共四路),高层推理用四路,全流程推理用腕部和前视相机。状态和动作维度为18或19(视平台不同)
控制系统极其简洁:π0.5 直接以 50Hz 频率输出目标位姿/速度(动作片段),通过简单 PD 控制器跟踪,无额外轨迹规划或避障——操作与导航全程端到端
V. Experimental Evaluation
π0.5 在整体任务完成率以及泛化到未见环境、物体和布置方面均大幅优于所有基线。去掉任何一个共训练数据源,性能都会显著下降,说明每种数据源都为开放世界泛化提供了不可或缺的信息。同理,只用离散动作 token 或仅用低层推理,也会导致性能下降,表明混合动作表示与分层推理的双重重要性
-
IV. The π0.5 Model and Training Recipe
-
A. π0.5 架构
统一 Transformer 接受多视角图像、语言提示和机器人状态,先预测高层语义子任务,再通过动作专家输出连续动作。 -
B. 离散 & 连续动作融合
预训练用 FAST 离散令牌快速学习,后训练用流匹配动作专家实现实时高精度连续动作。 -
C. Pre-training
在六大数据源上做自回归训练:移动操控(MM)、多环境静态臂(ME)、跨构型实验室(CE)、高层子任务标注(HL)、Web 感知任务(WD)。 -
D. Post-training
专门针对移动操控做 80k 步流匹配训练,加入语言演示指令(VI),细化高低层能力并保持语义理解。 -
E. Robot system details
两种移动双臂平台:4 视角相机、18–19 DoF,50 Hz 端到端 PD 控制,无额外规划或避障。
-
-
V. Experimental Evaluation
-
A. 在真实家居中的泛化
在3座未见过的真实厨房/卧室中,针对“餐具入槽”、“衣物进篮”、“抽屉收纳”等任务,10 次/环境平均成功率均超 70%。 -
B. 训练环境数量 vs. 泛化
后训练环境从 3 增到 104,四项任务整体表现线性提升,104 环境模型可接近“训练含测试环境”上限。 -
C. 各联合训练成分消融
去掉静态臂(ME)、跨构型(CE)均使表现大幅下降,Web 数据(WD)对 OOD 物体理解尤为关键;高层标注(HL)同样必不可少。 -
D. 与其他 VLA 对比
π0.5 显著优于 π0 和纯动作联合(π0-FAST+Flow),证明多源联合与分阶段训练的效能。 -
E. 高层推理的重要性
全流程高层+低层最好;仅隐式高层(训练含子任务、推理直接低层)也有显著提升;GPT-4 零-shot 性能较弱,说明需本体微调。
-
-
VI. Discussion and Future Work
总结 π0.5 在新环境长时序操控上的突破,同时指出对特殊把手、遮挡场景、复杂指令及记忆的不足;未来可扩展更多数据源、丰富上下文与记忆机制,以及更复杂用户交互。 -
Appendix
-
A. Contributions:列出各位作者在数据、标注、训练、硬件、写作等方面的具体贡献。
-
B. Task evaluation rubric:量化厨房/卧室四项任务的评分细则(每步得分规则)。
-
C. Language following setup:设计针对“抽屉收纳”“餐具入槽”中内/外分布物体的语言跟随实验,报告跟随率和成功率。
-
D. Per-task performance breakdown:消融与高层推理对各具体任务的影响条形图详解。
-
E. Model technical details:补充动作专家架构、注意力掩码、流匹配采样、图像增强等超参和实现细节。
-
4 最大牌 — GR00T N1
GR00T N1 — an open foundation model for humanoid robots
现阶段的主流方案,快慢双系统 VLA 架构:模仿人类认知的 System 1(快思考,动作生成)+ System 2(慢思考,推理决策)
-
System 2:预训练视觉-语言模型(VLM)理解场景与任务指令
-
System 1:基于扩散变换器(DiT),流匹配建模,实现高频(120Hz)运动控制
-
两系统 Transformer 深度耦合,端到端联合训练
🌐 Project Website:Isaac GR00T - Generalist Robot 00 Technology | NVIDIA Developer
Github:https://github.com/NVIDIA/Isaac-GR00T/tree/main
📄 Paper:NVIDIA Isaac GR00T N1: An Open Foundation Model for Humanoid Robots | Research
中文解读可参考:GR00T N1——英伟达开源的通用人形VLA:VLM Eagle-2慢思考、DiT快反应,且可类似LAPA利用海量的无标注视频做训练_智元 英伟达 比较-CSDN博客
4.1 综述
GR00T N1 是一个面向人形机器人的开源基础模型。GR00T N1是一个“视觉-语言-动作”(Vision-Language-Action, VLA)模型,可以根据图像和语言指令生成机器人动作。该模型支持多种机器人形态,从桌面机械臂到灵巧的人形机器人都能适用。
GR00T N1 采用了双系统(dual-system)的组合式架构,这一设计灵感来源于人类认知理论(参考Kahneman, 2011):
- System 2(系统2)为推理模块,是一个预训练的视觉-语言模型(VLM),在 NVIDIA L40 GPU 上以 10Hz 的频率运行,负责解析机器人的视觉感知和语言指令,实现环境理解和目标推理
- 随后,Diffusion Transformer(扩散 Transformer)作为 System 1(系统1)动作模块,利用动作流匹配(flow-matching)进行训练。该模块通过交叉注意力机制读取 VLM 输出的 token,同时利用针对不同机器人形态设计的编码器和解码器来适配不同的状态和动作维度,进而生成动作。System 1 能够以更高的频率(120Hz)输出闭环的运动指令
- System 1 与 System 2 均为基于 Transformer 的神经网络架构,在训练过程中高度耦合并联合优化,以便于推理与执行之间的紧密协作
为了解决数据孤岛问题,将 VLA 模型的训练语料组织成“数据金字塔”。并不把所有训练数据简单视为同质化的池子,而是根据规模和特性进行分层:
- 大量的网络数据和人类视频构成金字塔的底层
- 利用物理仿真和神经生成模型产生的合成数据形成中间层
- 而在真实机器人硬件上采集到的实际数据则位于金字塔顶端
金字塔下层为模型提供了广泛的视觉和行为先验,上层数据则保证了模型在具身物理世界中的执行能力
此项目开发了一套高效的协同训练(co-training)策略,实现预训练和微调阶段对整个数据金字塔的联合学习。针对那些没有动作标签的数据源,比如人类视频和神经生成的视频,学习了一个潜在动作(latent-action)编码表(Ye等, 2025),同时还利用经过训练的逆动力学模型(IDM)来推断伪动作(pseudo-actions)。这些技术手段可以给无动作标签的视频自动注释动作,将其视为额外的机器人形态纳入模型训练。通过统一金字塔各层的数据,构建了一个一致的数据集——输入包括机器人状态、视觉观测和语言指令,输出为相应的运动动作。该模型在三层数据上进行端到端预训练,训练 batch 从这些异构数据混合中采样
***4.2 GR00T N1 Foundation Model
GR00T N1 是一个针对人形机器人设计的 VLA 模型,训练数据来源多样。该模型包含一个视觉-语言骨干网络,用于编码语言和图像输入,以及一个基于 DiT 的流匹配策略(flow-matching policy),能够输出高频动作。采用 NVIDIA Eagle-2 VLM(Li 等人,2025)作为视觉-语言骨干网络。具体而言,公开发布的 GR00T-N1-2B 模型总参数量为 22 亿(2.2B),其中视觉-语言模型部分占 13.4 亿(1.34B)参数。在 L40 GPU 上,使用 bf16 精度采样 16 个动作块的推理时间为 63.9 毫秒。GR00T N1的三大关键特性:
-
设计了一种组合式模型架构,将基于视觉-语言模型(VLM)的推理模块(系统2)与基于 Diffusion Transformer 的动作模块(系统1)整合到统一的学习框架中
-
开发了高效的预训练策略,融合了人类视频、仿真和神经生成数据、以及真实机器人演示等多样化数据,以实现模型的泛化性和鲁棒性
-
训练出一种支持大规模多任务、受语言条件控制的策略,适用于广泛的机器人形态,并能通过数据高效的后训练快速适应新任务
4.2.1 Model Architecture
GR00T N1 通过 flow-matching(参见Lipman等人的方法)来学习动作生成。其核心 Diffusion Transformer(DiT)模块输入机器人本体状态和动作,然后与 Eagle-2 VLM 骨干网络输出的图像和文本 token 进行交叉注意力融合,最终输出去噪后的运动动作
State and Action Encoders
为了应对不同机器人形态下状态和动作维度的变化,为每种形态分别设计了 MLP,将状态和动作投影到统一的嵌入维度,作为输入送入 DiT 模块。参考Black等人(2024),动作编码器 MLP 不仅编码噪声动作向量,同时也将扩散过程的时间步信息(diffusion timestep)编码进来
采用动作流匹配(action flow matching)的方法,通过迭代去噪采样生成动作。模型的输入包括:带噪声的动作、机器人本体状态的编码、图像 token 和文本 token。动作是以块(chunk)的形式进行处理,类似Zhao等人(2023)的方法:每次输入一个动作块At = [at, at+1, ..., at+H-1],包含 t 到 t+H-1 的连续动作向量。在此项目的实现中,H设为16
Vision-Language Module (System 2)
在视觉和语言输入的编码方面,GR00T N1 采用 Eagle-2(Li等, 2025)视觉-语言模型(VLM),该模型是在互联网级别数据上预训练的。Eagle-2 通过对 SmolLM2(Allal等, 2025)大语言模型和SigLIP-2(Tschannen等, 2025)图像编码器的联合微调获得。输入图像以 224×224 分辨率处理,经 pixel shuffle(Shi等, 2016)后,每帧得到64个图像 token 嵌入。随后这些嵌入与文本一同被 Eagle-2 的 LLM 部分进一步编码。LLM 与图像编码器在大量视觉-语言任务上对齐,遵循Li等(2025)的通用方案
在策略训练时,任务的文本描述以及(可能多张)图像会以 chat 格式传入 VLM(与视觉-语言预训练时相同)。从 LLM 中提取形状为(batch size × 序列长度 × 隐层维度)的视觉-语言特征。项目中发现,使用 LLM 的中间层嵌入(而非最后一层)能够带来更快的推理速度和更高的下游策略成功率。GR00T-N1-2B 模型采用的是第12层的表示
Diffusion Transformer Module (System 1)
在动作建模方面,GR00T N1 采用了一种变体的 DiT(Peebles和Xie, 2023),即带有去噪步骤条件化(adaptive layer normalization)的 Transformer,记作 Vθ。Vθ 由交替的 cross-attention 和 self-attention 模块组成,这一结构类似 Flamingo(Alayrac等, 2022)和 VIMA(Jiang等, 2023)。Self-attention 模块处理带噪动作 token 嵌入 At^τ 和状态嵌入 qt,而 cross-attention模 块则以 VLM 输出的视觉-语言 token 嵌入 φt 为条件。通过最后的 DiT 块后,应用每种形态专属的动作解码器(又一个MLP)对最终 H 个 token 进行解码,输出动作
对于一个真实动作块 At,给定 flow-matching 时间步 τ∈[0,1] 以及采样噪声 ϵN(0, I),带噪动作块 At^τ 按如下方式计算:At^τ = τAt + (1−τ)ϵ。模型预测 Vθ(φt, At^τ, qt) 的目标是逼近去噪向量场 (ϵ−At),通过最小化如下loss:
参考 Black 等(2024),使用 p(τ) = Beta((s−τ)/s; 1.5, 1),其中 s=0.999。在推理阶段,使用 K 步去噪生成动作块:首先随机采样 A₀tN(0,I),然后用 Euler 前向积分迭代生成动作块,递推公式为:
实验发现 K=4 推理步即可适用于各种形态
4.2.2 Training Data Generation
为了训练GR00T N1,使用多种不同来源和任务目标的数据,构建了“数据金字塔”
- 首先,从公开数据集获取了多样化的人类第一视角视频,这些数据和用于 VLM 预训练的网络数据一起,构成了金字塔的基础层
- 接着,利用预训练的视频生成模型生成了合成的“神经轨迹”(neural trajectories),使自采集遥操作轨迹(原本88小时,金字塔顶层)数量扩充了约10倍,达到了827小时,这些轨迹包括带有新颖语言指令的各种反事实机器人行为
- 此外,还自动生成了多样化的仿真轨迹,进一步丰富了金字塔中层的数据
首先介绍如何从视频中提取“潜在动作”,从而为网络级别的人类第一视角视频数据集生成动作标签。随后会介绍如何生成神经轨迹和仿真机器人轨迹,以及如何为这些不同数据源获得动作标签
Latent Actions
对于人类第一视角视频和神经轨迹来说,并没有可直接用于训练 GR00T N1 的动作标签。针对这些数据,通过训练 VQ-VAE 模型来从连续视频帧中提取特征,从而生成“潜在动作”(latent actions)(Ye等, 2025)。该模型的编码器输入当前帧 xt 和未来帧 xt+H(窗口大小 H),输出潜在动作 zt;解码器则用 zt 和 xt 重构 xt+H。模型的训练目标是 VQ-VAE,即编码器输出的连续嵌入向量被映射到编码表(codebook)中最近的嵌入。训练完成后,将编码器作为逆动力学模型使用,给定 xt 和 xt+H 对,提取连续的预量化嵌入,用作预训练阶段的潜在动作标签(采用相同的 flow-matching 损失),并把这种方式视为一种独立的“LAPA”形态。VQ-VAE 模型在所有异构数据上联合训练,使所有数据共享同一潜在动作空间,从而提升跨形态泛化能力
Neural Trajectories
机器人数据的扩展通常是线性的,需要人工操作机器人完成每一条轨迹,效率极低。最近,视频生成模型在高质量、可控视频生成方面显示出了巨大潜力(Brooks等, 2024;Lin等, 2024等),为机器人领域构建世界模型带来了希望。此项目将图像到视频的生成模型(Agarwal等, 2025等)在88小时的自采集遥操作数据上进行了微调,并结合新颖的语言指令在已有初始帧上生成了827小时的视频数据,实现了约10倍的数据增幅。这一方法能够在不实际采集遥操作数据的情况下,生成包含多种反事实场景的训练数据
Simulation Trajectories
为人形机器人收集现实世界数据极其昂贵,尤其是涉及双臂和灵巧手的同时控制。近期研究表明,在仿真中生成训练数据是现实可行的替代方案。此项目采用 DexMimicGen(Jiang等, 2024)合成大规模机器人操作轨迹
DexMimicGen 以少量人类示范为起点,通过仿真中的示范变换与回放自动扩充数据集。每个任务被拆解为一系列以物体为中心的子任务。初始人类示范被切分为更小的操作序列,每个对应一个特定物体的子任务。这些片段通过与新环境中的物体位置对齐进行适配,同时保持机器人末端执行器与物体的相对姿态。为了保证执行流畅,系统会在机器人当前状态与变换片段之间进行插值。机器人按顺序执行整个任务,最终检查任务是否成功,仅保留成功的演示以确保高数据质量。借助 DexMimicGen,能够将有限的人类示范扩展为大规模的人形机器人操作数据集。考虑到预训练和微调数据,共生成了78万条仿真轨迹,相当于6500小时(即连续9个月)的人类示范数据,整个过程仅需11小时。仿真数据以极低人力成本大大补充了真实机器人数据
4.2.3 Training Details
Pre-training
在预训练阶段,GR00T N1 通过 flow-matching 损失,在多样化的机器人形态与数据源上进行训练,涵盖了各种真实及合成机器人数据集,以及人类动作数据
对于没有真实动作标签的人类视频,提取学习到的“潜在动作”,用作 flow-matching 训练目标。对于机器人数据(如 GR-1 数据或 Open X-Embodiment 数据),则同时使用真实动作和潜在动作作为训练目标。对于用于增强机器人数据的神经轨迹,既使用潜在动作,也用逆动力学模型(IDM)在真实机器人数据上训练得到的预测动作
Post-training
在微调阶段,针对每种具体的机器人形态,对预训练模型进行细化训练。与预训练类似,保持视觉-语言(VL)主干的语言部分参数冻结,仅微调模型其余部分。微调的超参数详见附录表6
Post-training with Neural Trajectories
为解决微调阶段数据稀缺的问题,通过生成神经轨迹来增强每个下游任务的数据。对于需要多视角条件的下游任务,对视频生成模型做微调,以生成多子图网格。对于仿真任务,从随机初始化环境中采集多样化的初始帧;真实机器人任务则通过人工随机初始化物体姿态并记录机器人的初始观测。新颖的初始帧也可以用 img2img diffusion 自动生成,但这部分我们留待未来探索。还展示了:(1)多轮视频生成以构建由原子任务组成的长时序轨迹,(2)液体和关节物体等难以仿真的神经轨迹,尽管下游任务的量化评估有待后续研究
在神经轨迹增强的微调流程中,对于仿真任务,只用人类采集的轨迹来微调视频生成模型;对于真实机器人任务,只用真实基准数据的10%来做后训练,以模拟现实场景下遥操作数据有限的情况。由于生成视频没有动作标签,用潜在动作或 IDM 标注的动作(Baker等, 2022)为其赋予伪标签,并将这些伪动作当作不同形态的训练标签。对于低数据场景,IDM 模型也仅用低数据训练,以保证场景真实。IDM训 练细节见附录E,潜在动作和 IDM 标注动作的实证对比见4.4节。微调时,策略以1:1比例同时采样真实轨迹和神经轨迹联合训练
*Training Infrastructure
在 NVIDIA OSMO 平台(NVIDIA, 2025)上训练 GR00T N1,这是一个面向复杂机器人负载的大规模集群调度平台。训练集群采用 H100 GPU,通过 NVIDIA Quantum-2 InfiniBand 以 fat-tree 结构互联。我们基于 Ray 分布式计算库开发了自定义库,支持容错多节点训练和高效数据读入。单模型最多可用1024块 GPU。GR00T-N1-2B 的预训练共用约5万 H100 GPU 小时
受算力约束时,微调可用单张 A6000 显卡测试。如果只调整 adapter 层(动作与状态编码器+动作解码器)和 DiT,batch size 最高可达200;如需调整视觉编码器,batch size 最高为16
4.3 Pre-Training Datasets
将预训练语料分为三大类:真实机器人数据集(见3.1节)、合成数据集(见3.2节)、人类视频数据集(见3.3节)。这三类数据分别对应数据金字塔的顶端、中层和底层(见图1)。合成数据集包括仿真轨迹和神经轨迹。表1总结了2.2节所述的数据生成策略及其对应的数据源。预训练数据集的帧数、时长和摄像头视角等完整统计信息详见表7
| 潜在动作 | 神经轨迹 | 仿真轨迹 | |
|---|---|---|---|
| 真实机器人数据 | ✓ | ✓ | ✓ |
| 仿真机器人数据 | ✓ | ✓ | |
| 人类视频数据 | ✓ |
4.3.1 Real-World Datasets
使用了如下真实机器人数据集:
-
GR00T N1人形机器人预训练数据集:自采集的数据集涵盖了广泛的基础操作任务,重点聚焦 Fourier GR1 机器人遥操作。数据采集过程中采用 VIVE Ultimate Tracker 捕捉操作者手腕姿态,Xsens Metagloves 跟踪手指动作,还尝试了 Apple Vision Pro和Leap Motion 等遥操作硬件。记录的人类动作通过逆运动学(IK)映射为机器人动作,遥操作以20Hz实时控制频率运行。每个步骤不仅记录机器人动作,还记录头戴摄像头图像、人类本体感知(proprioception)和动作。数据集含有细粒度注释(如抓取、移动、放置等原子动作)和粗粒度注释(多个原子动作聚合成更高级别任务),这种分层结构支持模型同时学习精细运动控制与高级任务推理
-
Open X-Embodiment:这是机器人操作领域广泛使用的跨形态数据集。纳入了RT-1、Bridge-v2、Language Table、DROID、MUTEX、RoboSet 和 Plex 等多个子数据集,涵盖了多样的操作任务、语言条件控制以及丰富的机器人-环境交互
-
AgiBot-Alpha:AgiBot-World-Contributors 等人采集的大型轨迹数据集,包含来自100台机器人的14万条轨迹,覆盖了精细操作、工具使用和多机器人协作等内容
4.3.2 Synthetic Datasets
合成数据集包括:(1)基于物理仿真器,利用少量人类示范自动扩增的仿真轨迹;(2)由现成神经生成模型生成的视频提取的神经轨迹
仿真轨迹
除真实数据集外,还采集了大规模的仿真合成数据集(见2.2节)。仿真任务涵盖人形机器人在桌面环境下的多种物体重排操作,配备丰富的高仿真3D资产。这些任务基于 RoboCasa 仿真框架(Nasiriany等, 2024)构建,基本行为为“将 A 从 B 搬到 C”,其中 A 为物体,B 和 C 为环境中的源/目标位置(如盘子、篮子、餐垫、架子等)。机器人需要在不同源/目标组合之间重排物体,预训练仿真数据集共包含54组独特的容器组合。物体和容器在桌面上随机摆放,场景中还随机加入干扰物体和容器,要求模型必须结合任务语言进行正确操作
神经轨迹
此项目在自采集的 GR00T N1 人形机器人预训练数据集上微调了开源的图像到视频生成模型(见2.2节),训练100轮,数据集包含3000条带有语言注释的真实机器人样本,每条为480P、81帧。正如图5所示,模型能根据新颖语言指令生成高质量的反事实轨迹。此外,由于模型是在互联网级视频数据上训练的,对于从未见过的初始帧、新物体和新动作模式也有很强泛化能力。这些视频随后通过潜在动作和 IDM 伪动作进行标签补全,以参与模型训练。一共生成了约827小时的视频:在L40 GPU上生成1秒视频需要2分钟,共计消耗10.5万 L40 GPU 小时(约1.5天,3600张L40 GPU同时运行)
4.3.3 人类视频数据集
此项目纳入了多样化的人类视频数据集。这些数据集没有显式动作标签,但包含大量人-物交互片段,捕捉了可达性、任务语义和自然运动模式。涵盖的行为包括抓取、工具使用、烹饪、装配等丰富的现实任务,并以第一视角详尽记录手部与物体的自然互动(案例见图11)。数据集包括:
-
Ego4D:大规模第一视角视频数据集,记录多样日常活动(Grauman等, 2022)
-
Ego-Exo4D:在第一视角基础上增加外部第三视角视图(Grauman等, 2024)
-
Assembly-101:复杂装配任务的详尽分步视频(Sener等, 2022)
-
EPIC-KITCHENS:厨房场景第一视角视频(Damen等, 2018)
-
HOI4D:含分割、手/物体姿态和动作标签的人-物交互(Liu等, 2022)
-
HoloAssist:增强现实协作和辅助任务数据集(Wang等, 2023)
-
RH20T-Human:细粒度操作任务,强调多样真实场景下的自然手-物互动(Fang等, 2023)
*4.3.4 扩展:数据集链接
1. 真实机器人数据集
GR00T N1:https://huggingface.co/datasets/nvidia/PhysicalAI-Robotics-GR00T-X-Embodiment-Sim
Open X-Embodiment:Open X-Embodiment: Robotic Learning Datasets and RT-X Models
AgiBot-Alpha:https://github.com/OpenDriveLab/AgiBot-World
2. 合成数据集:
https://github.com/NVIDIA/DexMimicGenDexMimicGen:DexMimicGen: Automated Data Generation for Bimanual Dexterous Manipulation via Imitation Learning
RoboCasa Simulation Framework:RoboCasa | robocasa-web
3. 人类视频数据集
Ego4D:Egocentric 4D Perception (EGO4D)
Ego-Exo4D:Egocentric 4D Perception (EGO4D)
Assembly-101:Assembly101: A Large-Scale Multi-View Video Dataset for Understanding Procedural Activities
EPIC-KITCHENS:Redirecting to EPIC Kitchens 2025
HOI4D:HOI4D: A 4D Egocentric Dataset for Category-Level Human-Object Interaction
4.4 Evaluation
此处只看仿真结果作为参考:
- RoboCasa Kitchen (24 tasks, RoboCasa)
- DexMimicGen Cross-Embodiment Suite (9 tasks, DexMG)
- GR-1 Tabletop Tasks (24 tasks, GR-1)
对比模型:
-
BC-Transformer(Mandlekar等,2021)
基于 Transformer 的行为克隆策略(集成于 RoboMimic),采用 Transformer 架构处理观测序列,配合高斯混合模型(GMM)建模动作分布。该策略以10帧观测为输入,预测后续10步动作 -
Diffusion Policy(Chi等,2024)
通过扩散生成过程建模动作分布,采用 U-Net 架构逐步去除随机样本中的噪声,基于观测序列生成精确机器人动作。单帧观测输入可一次性推理输出16步动作
什么鬼对比啊......满心期待一看评估结果是菜鸡互啄,太 tmd 真实了,人行任重道远啊
4.5 Appendix
D. System Design
D.1. Dataset Formats
训练数据集基于 LeRobot 数据格式(Cadene等,2024)构建,该格式是开源机器人社区广泛采用的标准。由 Hugging Face 开发的 LeRobot 通过提供标准化存储、共享和使用机器人演示数据的规范,显著降低了机器人研究的入门门槛。得益于其灵活性和 Hugging Face hub 上丰富的预训练模型/数据集资源,该格式已获得广泛认可
LeRobot 格式采用复合文件格式实现高效存储与访问:
-
表格数据:机器人状态、动作及元数据存储于 Parquet 文件,其列式存储特性支持快速数据检索,便于深度学习训练所需的筛选与切片操作
-
视觉数据:观测图像以 MP4 视频(或 PNG 图像序列)编码,通过 Parquet 文件建立索引,在保证数据可访问性的同时显著降低存储需求
-
元数据:数据集统计信息、片段索引等结构化元数据存储于 JSON 文件,提供机器可读的数据集特征描述
该格式将演示数据组织为多个"片段"(episode),每帧包含同步的观测-动作对:
-
观测:通常包含相机图像(observation.images.*)和机器人状态(observation.state)
-
动作:对应发送至机器人的控制指令
这种结构同时支持模仿学习(从观测预测动作)和强化学习(优化特定目标)的训练范式
针对跨形态数据需求,在 LeRobot 基础上新增以下约束规范:
- 模态配置文件 :在 meta 目录下必须包含 modality.json 配置文件,明确定义状态/动作向量的结构,将各维度映射到语义含义,提供模态专属的附加信息(如数据类型、取值范围等)
-
细粒度模态规范:将标准格式中的整体状态/动作向量拆分为语义明确的字段(如末端执行器位置、朝向、夹爪状态),每个字段包含独立元数据(数据类型、数值范围、变换规则等)
-
多标注支持:支持单数据集内多类型标注(任务描述、有效性标志、成功指标等),沿用 LeRobot 索引存储方案:Parquet 文件存索引,实际内容存于独立 JSON 文件
-
旋转类型规范:明确指定旋转数据的表示形式(四元数/欧拉角/轴角等),确保训练时能正确处理旋转变换
扩展后的格式为视觉语言动作(VLA)模型训练带来显著收益:
-
语义透明性:明确定义各维度的结构与含义,降低数据预处理和训练过程中的错误风险
-
灵活变换:支持字段专属的归一化与增强策略(如针对不同旋转表示的特异性处理)
-
多模态支持:自然兼容视觉观测、状态信息、动作指令和语言标注的协同训练
-
数据验证强化:通过显式结构实现更严格的数据校验,避免畸形/不一致数据影响训练
-
生态兼容性:在扩展功能的同时保持与 LeRobot 工具链的向后兼容
该格式在标准化与灵活性之间取得平衡,既为通用机器人数据提供清晰结构,又能满足 VLA 模型的特殊需求。实践表明,这种设计显著提升了训练效率与模型性能,同时保持了与机器人研究社区的互操作性
D.2. Standardized Action Spaces
针对上述数据集,采用最佳实践方案统一动作空间与状态空间,确保跨形态与控制模式的一致性。标准化实施包含以下核心措施:
-
末端执行器旋转状态归一化:状态中的末端执行器旋转统一转换为 6D旋转表示法,消除传统欧拉角表示中的奇点与不连续性问题
-
末端执行器旋转动作标准化:动作中的末端执行器旋转采用 轴角表示法,提供紧凑平滑的旋转控制参数化方案
-
状态与动作缩放处理:对关节状态、关节动作、末端执行器位置状态、末端执行器位置/旋转动作,实施 最小-最大归一化,确保不同机器人系统的数值范围统一
-
空间排序一致性:状态/动作向量严格遵循标准化排序:旋转 → 位置 → 夹爪开合度,双臂系统采用 从左臂到右臂 的顺序排列(若适用)
E. Additional Training Details
辅助目标检测损失
为增强模型的空间理解能力,我们在训练中引入了辅助目标检测损失。除预测动作外,模型还需基于语言指令定位目标物体:
-
标注方法:使用 OWL-v2 目标检测器(Minderer等,2023)标注轨迹片段每帧中目标物体的边界框
-
坐标归一化:将边界框中心坐标 xgt 的 x/y 值分别除以图像宽/高,得到归一化坐标
-
预测模块:在视觉-语言嵌入令牌顶层添加线性层,预测 2D 坐标 xpred
-
损失计算:采用平方损失 Ldet=∥xpred−xgt∥2,总损失为动作预测损失与检测损失之和:L=Lfm+Ldet
神经轨迹生成
基于采集的遥操作轨迹,采用 LoRA(Hu等,2022)对 WAN2.1-I2V-14B 模型(Wan Team,2025)进行微调:
-
数据预处理:轨迹统一降采样至 480P 分辨率下的81帧
-
生成控制:微调后的图像-视频模型可生成覆盖现实世界反事实场景的神经轨迹
-
质量过滤:从每段生成视频中采样8帧,通过商用多模态 LLM 评估指令遵循性,未通过者以 256P 分辨率降采样至16帧重新标注
逆动力学模型(IDM)训练
通过两帧图像(当前帧与未来帧)预测其间的动作块:
-
输入设计:实验表明,增加状态信息或多帧图像对验证集性能无显著提升
-
模型架构:采用扩散 Transformer 模块(System 1)结合 SigLIP-2 视觉嵌入,以流匹配目标训练
-
训练配置:根据训练集规模,每形态训练30K或60K步
-
伪标注应用:训练后对神经轨迹逐步生成两帧图像间的伪标注动作(动作跨度与训练时一致)
5 最利好 — GR00T N1.5
N1 人形机器人基础模型的升级版
N1.5 在模拟操作基准测试和实际 GR-1 机器人上的表现均优于 N1
🌐 Project Website:GR00T N1.5
Github:https://github.com/NVIDIA/Isaac-GR00T/tree/main
5.1 综述

与 N1 一样,GR00T N1.5 使用 NVIDIA Eagle VLM 对文本和视觉观察结果进行编码。然后,视觉语言嵌入通过 VLM 生成,再由 DiT 进行交叉注意力处理,DiT 处理状态和添加噪声的动作
与 N1 相比,主要的不同之处在于以下几点:
- 在预训练和微调期间,VLM 模型都是固定的
- 连接视觉编码器与 LLM 的适配器 MLP 被简化,并在输入到 LLM 的视觉和文本标记嵌入中都添加了层归一化
这些改进极大地提高了语言理解和泛化能力
在 RefCOCOg 和内部的 GEAR GR-1 grounding dataset with referring expressions 上,观察到 N1.5 视觉语言模型的表现优于 Qwen2.5-VL-3B
| Model | Size | GR-1 grounding IoU (↑) | RefCOCOg-val IoU (↑) |
|---|---|---|---|
| Qwen2.5VL | 3B | 35.5 | 85.2 |
| GR00T N1.5 VLM | 2.1B | 40.4 | 89.6 |
5.2 Joint Policy Learning and World Modeling Objective
除了 N1 所使用的流匹配损失之外,对于 N1.5 还添加了未来潜在表示对齐(参见 FLARE 项目)。FLARE 并非生成性地对未来的帧进行建模,而是将模型与目标未来的嵌入进行对齐。发现添加 FLARE 不仅提高了策略性能,还解锁了从人类视频中学习的能力
Training
在 1000 块 H100 GPU 上对 GR00T N1.5 进行了 25 万步的训练,全局批处理大小为 16384。与 N1 一样,使用了带有余弦学习率计划和 0.05 预热比例的 AdamW 优化器。 在预训练和后训练阶段都使用了 0.2 的 FLARE 损失系数
预训练混合数据集包括内部的 GR-1 数据、OpenXE、模拟的 GR-1(又名 DexMG)、来自 DreamGen 的神经轨迹以及 AgiBot-Beta:

5.3 Experimental Results
Learning to manipulate novel objects from human ego videos
正如 FLARE 项目所展示的那样,future latent representation alignment 能够直接从人类第一视角视频中学习。这使得能够从人类视频和少量机器人演示中学习操作新物体。使用 N1.5,发现这在零样本情况下也能奏效
| Benchmark | GR00T N1 (scratch) | GR00T N1.5 (scratch) |
|---|---|---|
| Language table | 52.8% | 93.2% |
| Sim GR-1 Language | 36.4% | 54.4% |
Generalization to novel behaviors using Neural Trajectories
为了超越遥操作数据进行泛化,并使仿人机器人能够在新环境中学习新任务,使用 DreamGen 生成用于训练的合成机器人数据
Post-training on Unitree G1
5.3 扩展
FLARE project:FLARE: Robot Learning with Implicit World Modeling
:https://research.nvidia.com/labs/gear/dreamgen/
6 模型验证配置 — GR-MG
🌐 Project Website:
GR-MG: Leveraging Partially-Annotated Data via Multi-Modal Goal Conditioned Policy
📄 Paper:[2408.14368] GR-MG: Leveraging Partially Annotated Data via Multi-Modal Goal-Conditioned Policy
Github:
GR-MG: Leveraging Partially-Annotated Data via Multi-Modal Goal Conditioned Policy

1805

被折叠的 条评论
为什么被折叠?



