GR00T N1——英伟达开源的通用人形VLA：VLM Eagle-2慢思考、DiT快反应，且可类似LAPA利用海量的无标注视频做训练

v_JULY_v

已于 2025-05-05 09:29:01 修改

阅读量5.5k

点赞数 32

分类专栏：人形的具身大脑开发：iDP3/GR00T N1/大模型赋能文章标签： GR00T N1 英伟达的通用人形VLA 潜在动作token生成仿真中生成训练数据 GR00T N1的源码解析

于 2025-03-20 00:28:26 首次发布

本文链接：https://blog.csdn.net/v_JULY_v/article/details/146376514

版权

人形的具身大脑开发：iDP3/GR00T N1/大模型赋能专栏收录该内容

10 篇文章

订阅专栏

前言

就在昨天3.19日的凌晨，英伟达发布的GR00T N1还是很有含金量的(上午已有好几个朋友私我了)，由此可以看到很多相关工作的影子，比如helix π0 LAPA，具体而言，其具有双系统架构

VLM模块(系统2)通过视觉和语言指令解释环境，在NVIDIA L40 GPU上以10Hz运行
随后的扩散transformer「类似CogACT的VLM + DiT的构成」，即DiT模块(系统1)实时生成流畅的运动动作(120Hz)

总之，如我在我司具身实战营回答一学员朋友的，N1把近期的这三个工作：

无监督视频数据的利用
类似Google Genie、LAPA/moto、ViLLA)
慢推理、快反应的双系统
类似Helix，Helix详见《Helix——Figure 02发布的通用人形机器人控制VLA：不用微调即可做多个任务的快与慢双系统，让两个机器人协作干活(含清华HiRT详解)》
以及VLA
详见此系列《通用机械臂之路: π0等VLA sota模型》

再次向前迈进了一步，至于3.18日晚上计划的fourier-lerobot对idp3的封装解读，则作为这两天的第二篇

PS，我司「七月在线」也准备在一个人形项目中试下这个GR00T N1，欢迎私我一两句自我简介(比如在哪个公司做什么，或在哪个高校研几什么业)，邀请进：『七月具身：GR00T N1交流群』

顺便说个事，随着我司「七月在线」接的B端大客户具身订单越来越多了，非常缺人

除了现有长沙、南京的具身团队之外，我司将在25年Q2之内，在上海也建立一支全职具身团队，2-3万/月(能力够还可3.5)
需要做过至少1年的具身算法开发(比如模仿学习、RL、VLA之类的)，且有真机部署经验，有意私我
整个团队完成一个个项目的过程中，对个人的挑战、锻炼、提高都将极大，当然硕士实习生也需要，6-10k/月

第一部分 GR00T N1的原理详解

1.1 GR00T N1的提出背景与相关工作

1.1.1 GR00T N1

通过本博客之前的文章可知，目前机器人可用的训练数据大概有三类，且如果类似英伟达把这三类数据汇总成一个金字塔的话，则从上至下是

真实机器人的轨迹数据，下文2.2.4节详述
真实世界中通过物理机器人硬件收集的数据则是顶层
合成生成的数据集，含视频生成数据、仿真数据，下文2.2.2、2.2.3节详述
$\rightarrow$ 通过物理模拟生成的合成数据——即synthetic data generated with physics simulations，比如仿真数据
$\rightarrow$ 和/或由现成的神经模型增强的数据(比如通过VLM标注的数据)，形成中间层

对于后者，他们使用预训练的视频生成模型生成合成的神经轨迹——就是模型预测的行为。通过这种方式，将内部收集的遥操作轨迹从88小时增加到827小时，即数据金字塔的“峰值”，使用了带有新语言指令的多样化反事实机器人轨迹(diverse counterfactual robot trajectories)
网络数据，与(带标注或无标注的)人类视频数据集，下文2.2.1节详述
大量的网络数据和人类视频构成金字塔的底层基础
当然，其中有相当一部分的图像-文本数据可以是作为VLM的预训练数据的，而当VLM赋能机器人时，VLM这部分的预训练数据便成为了机器人的知识之一

金字塔的底层提供广泛的视觉和行为先验，而顶层则确保了在具身的真实机器人执行中的落地性

英伟达在GR00T N1的训练中，为了全部利用上这三类数据，特别是为了使用无动作标签的数据源(例如人类视频和视频生成模型生成的视频)训练的模型，他们

类似LAPA「LAPA的介绍详见此文《ViLLA——继AgiBot World之后，智元发布GO1及其背后基于潜在动作的VLA架构ViLLA：利用海量的无标注视频做训练(含LAPA、Moto的详解)》的第二部分」，也学习了一个latent-action codebook
并且使用了一个经过训练的逆向动力学模型「IDM，特指Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos」来推断伪动作
“ 使用少量标记数据，训练一个足够准确的逆动力学模型，以标记大量未标记的在线数据源（这里是人们玩 Minecraft 的在线视频），然后从中训练一般的行为先验 ”

如此，使得能够为无动作的视频注释动作，从而有效地将它们视为模型训练的额外机器人embodiments

总之，他们通过统一数据金字塔中的所有数据源，构建了一个一致的数据集，其中输入包括机器人状态、视觉观察和语言指令，而输出是相应的电机动作
然后，他们在三个数据层上端到端地预训练他们的模型——通过在这种异构数据混合中采样训练批次来实现
毕竟，即便是OpenX这样的机器人数据集，汇集来自许多不同机器人的训练数据。但机器人在体型结构、传感器、执行器自由度等方面的巨大差异，使得这部分数据在用来训练时，也得先做一定的处理的，比如类似RDT做的「1.2.1 解决数据异构性问题，且兼容多个模态的输入」

1.1.2 相关工作：具身模型、训练数据来源

近年来，对于具身模型的开发，一般有两种方法

一种常见的方法是将现有的预训练基础模型作为高层黑箱推理模块，与低层机器人特定策略相结合
Brohan 等，2023，RT-2
Driess 等，2023， Palm-e
Huang 等，2023， Inner monologue: Embodied reasoning through
planning with language models，Grounded decoding: Guiding text generation with grounded models for embodied agents
Liang 等，2023，Code as policies: Language model programs for embodied control
Lin 等，2023，Text2motion: from natural language instructions to feasible plans
Singh 等，2023，Progprompt: Generating situated robot task plans using large language models
这种方法使机器人能够使用预训练的基础模型规划低层技能或动作的序列。然而，这种方法假设了低层策略的可用性以及一个足够的接口来将它们连接到黑箱基础模型
另一种方法是对预训练的基础模型进行针对机器人数据的微调，以构建VLA模型
Black 等，2024，π0
Brohan 等，2022，2023，RT-1，RT-2
Cheang 等，2024， Gr-2
Huang 等，2024，An embodied generalist agent in 3d world
Kim 等，2024，Openvla
Li等，2023，Vision-language foundation models as effective robot imitators
Wen 等，2024，Tinyvla: Towards fast, data-efficient vision-language-action models for
robotic manipulation
Yang 等，2025， Magma: A foundation model for multimodal AI agents
Ye 等，2025， Latent action pretraining from videos，即LAPA
Zhen 等，2024， 3d-vla: 3d vision-language-action generative world model
Zheng等，2025， TraceVLA: Visual trace prompting enhances spatial-temporal awareness for generalist robotic policies

与在高层视觉语言模型（VLM）规划和低层控制之间强制实施严格的层级结构不同，这些 VLA 模型允许针对下游部署任务进行端到端优化

英伟达采用类似上面第二种微调的方法来训练 GR00T N1，并使用 Eagle-2 模型「Li 等2025-Eagle 2: Building post-training data strategies from scratch for frontier vision-language models」作为视觉语言模型VLM

且他们将 VLM 与基于流匹配的

Hu 等2024-LoRA: Low-rank adaptation of large language models
Lipman 等- Flow matching for generative modeling
Liu 等2022-Flow straight and fast: Learning to generate and transfer data with rectified flow

动作生成模型，和动作分块模型「Zhao 等2023-ALOHA ACT」一起进行微调，且

与之前使用专家混合架构(将基础 VLM 模型与动作生成模型Gemma连接)的VLA 模型π0 相比，GR00T N1使用了简单的交叉注意力机制
这种方法在可以使用的 VLM 模型和动作生成模型的具体架构方面提供了灵活性
此外，他们使用了针对特定机器人实现的状态和动作投影模块——这些模块支持不同的机器人实现，包括潜在的LAPA(Ye 等，2025)和基于IDM (Baker 等2022-Video pretraining (vpt): Learning to act by watching unlabeled online videos) 的动作
这些投影器的使用类似于 Octo Model Team 等(2024，即Octo: An open-source generalist robot policy)中的那些，尽管该工作并未对 VLM 模型进行微调

而对用于机器人学习的数据集上，分为遥操采集、手持夹爪采集、视频数据集

一种常见的方法是使用机器人远程操作『Al-daco 等，2024；Dass 等，2024；Fu 等，2024；Iyer 等；Mandlekar 等，2018，2019，2020；Wu 等，2023；Zhang 等，2018；Zhao 等，2023』，即人类使用智能手机，或虚拟现实VR控制器等设备来控制机器人执行感兴趣的任务
机器人在运行期间的传感器数据流和机器人控制指令(The robot sensor streams and robot controls)会被记录到一个数据集中，从而能够收集到高质量的任务演示

最近，通过利用大型人类操作团队和机器人队列在较长时间内（例如数月）进行操作，这种方法得到了扩展，生成了包含数千小时演示的大规模机器人操作数据集
AgiBot-World-Contributors 等，2025
Black 等，2024
Brohan 等，2022，2023
Ebert 等，2022
Lynch 等，2023
O’Neill 等，2024

然而，以这种方式收集数据需要大量的成本和人力投入
另一个方向是使用特殊设备进行的人类演示硬件用于捕获与机器人相关的观察和动作数据，而无需明确地远程操作目标机器人

例如
$\rightarrow$ Chi等人——即umi
$\rightarrow$ Seo等人(2025)使用手持式机器人夹具，详见：LEGATO: Cross-Embodiment Imitation Using a Grasping Tool
$\rightarrow$ Fang等人（2024）使用类似机器人的外骨骼
$\rightarrow$ Kareer等人(2024)使用特殊眼镜来捕捉人类手部动作，这些动作被重新定位为机器人动作数据——巧的是，昨晚3.21晚上还一朋友问我“请教一下这个头显是否可以用vr眼镜替换？”，结果第二天3.22晚上更新到此处时，便注意到了这个：EgoMimic | Scaling Imitation Learning through Egocentric Video

这些方法通常能更快地收集数据，但与直接远程操作机器人相比，它们与下游机器人存在一定的不匹配
另一种研究方向利用人类视频数据集『Damen等人，2018；Goyal等人，2017；Grauman等人，2022，2024；Miech等人，2019』，作为机器人训练数据的来源，这些数据集丰富且比在机器人上收集数据容易得多

一些研究「Karamcheti等人，2023；Nair等人，2022；Wu等人，2023」使用人类视频数据集来预训练表示，然后将这些表示用作下游机器人数据集上训练策略的特征空间

其他研究「Bharadhwaj等人，2024；Ren等人，2025」尝试通过视频中动作的中间表示联合使用人类视频数据和机器人数据
Ye等人(2025)的LAPA表明，仅在人类视频上预训练潜在动作的VLAs对下游机器人任务具有正向迁移作用

最终，英伟达的本项工作，能够有效地从多种真实世界的机器人数据、人类视频数据和合成数据中学习，而不是依赖于单一类型的训练数据

对于机器人领域的合成数据生成

现实世界中的机器人数据收集需要大量时间和相当高的人力成本。相比之下，在模拟环境中收集数据可以更加高效且轻松，这使其成为一种引人注目的替代方案

最近，一些研究『Dalal 等，2023；Garrett 等，2024；Gu 等，2023；Ha等，2023；James 等，2020；Jiang 等，2024；Mandlekar 等，2023；Nasiriany 等，2024；Wang 等，2024；Yang 等，2025』提出了自动化的数据生成管道，可以利用模拟生成数千个任务演示，几乎不需要人力。这使得生成大规模数据集变得容易；

然而，由于模拟到现实的差距，利用这些数据集可能会面临挑战
另一个有前途的方向是使用神经生成模型来扩充现有的机器人示范集（Chen等人，2023；Mandi等人，2022；Yu等人，2023）
然而，以往的工作局限于利用图像补全或文本到图像扩散模型来扩充训练数据

在英伟达的工作中，他们利用了视频生成模型的最新进展
Agarwal等人 2025——Cosmos world foundation model platform for physical ai
Wan团队 2025——Wan: Open and advanced large-scale video generative models
来创建完整的神经轨迹，其规模前所未有：大约30万条神经轨迹，相当于827小时的机器人轨迹

在他们的模型中，他们利用了由MimicGen(Mandlekar等，2023)和DexMimicGen(Jiang等，2024)生成的大型合成模拟数据集，以及通过最先进的视频生成模型生成的神经生成视频数据集

1.2 GR00T N1 基础模型：推理模块VLM + 动作模块DiT

GR00T N1 模型包含

一个视觉-语言骨干网络作为推理模块system 2，用于编码语言和图像输入
对于VLM的选择上，他们使用 NVIDIA Eagle-2 VLM作为视觉-语言骨干网络，且在N1-2B模型总计2.2B参数中，VLM的部分占1.34B
以及一个基于DiT 的流匹配策略作为动作模块system 1，用于输出高频动作

他们在 L40 GPU 上使用 bf16 进行推理时，采样 16 个动作片段的推理时间为 63.9 毫秒，且作为一个大规模多任务的语言条件策略，该策略支持各种机器人结构，并通过高效的后训练之后，可以实现对新任务的快速适应

1.2.1 状态与动作编码器：对机器人的本体感知状态和噪声化动作进行编码

进一步而言，如下图图3所示，对于动作模块而言，其处理机器人的本体感知状态和(噪声化的)动作，然后与来自Eagle-2 VLM主干网络的图像和文本token进行交叉注意力计算，以输出去噪后的电机动作

为了处理不同机器人结构中具有不同维度的状态和动作，他们为每种结构使用一个多层感知机MLP将其投影到一个共享的嵌入维度，以作为DiT的输入
且如π0所述，动作编码器MLP还将扩散时间步与噪声动作向量一起编码
最终使用动作流匹配方法，通过迭代去噪采样动作。模型以噪声化的动作Noised Action作为输入，此外还包括机器人的本体感知状态编码Robot State、图像token和文本token
且类似ALOHA ACT，动作按块处理，这意味着在任意给定时间 $t$ ，模型使用 $A_{t}=\left[a_{t}, a_{t+1}, \ldots, a_{t+H-1}\right]$ ，其中包含时间步 $t$ 到 $t + H - 1$ 的动作向量。在他们的实现中，设置的 $H = 16$

1.2.2 视觉-语言模块(系统2)：对视觉和语言输入进行编码

为了对视觉和语言输入进行编码，GR00T N1 使用了 Eagle-2 VLM，该模型在互联网规模的数据上进行了预训练，Eagle-2 是从 SmolLM2和 SigLIP-2图像编码器微调而来的

图像以 224×224 的分辨率进行编码，然后进行像素重排，每帧生成 64 个图像token嵌入
这些嵌入随后与文本一起由 Eagle-2 VLM 的 LLM 组件进一步编码
LLM 和图像编码器在一组广泛的视觉-语言任务上进行了对齐，遵循了Eagle 2提出的一般方法
在策略训练过程中，任务的文本描述以及(可能是多张)图像以视觉-语言训练中使用的聊天格式传递给VLM
然后，从LLM 中提取形状为（批量大小× 序列长度× 隐藏维度）的视觉-语言特征
他们发现，使用中间层而非最终层的LLM 嵌入可以同时提高推理速度和下游策略的成功率。对于GR00T-N1-2B，他们使用第12 层的表示

1.2.3 扩散transformer-DiT模块(系统1)：综合上面的4个输入，对动作进行建模、预测

为了对动作进行建模，GR00T N1 使用了 DiT 的一种变体，这是一种通过自适应层归一化进行去噪步骤条件化的transformer「For modeling actions, GR00T N1 uses a variant of DiT (Peebles and Xie, 2023), which is a transformer with denoising step conditioning via adaptive layer normalization」，表示为 $V_{\theta}$

DiT及其变体的介绍，详见此文《Diffusion Transformer(DiT)——将扩散过程中的U-Net换成ViT：近频繁用于视频生成与机器人动作预测(含清华PAD详解)》

如图3所示， $V_{\theta}$ 由以下部分组成

交替使用交叉注意力和自注意力模块，类似于Flamingo(Alayrac et al., 2022)和VIMA(Jiang et al., 2023)
$\rightarrow$ 自注意力模块在带噪声的动作token嵌入 $A_{t}^{\tau}$ 和状态嵌入 $q_{t}$ 上运行
$\rightarrow$ 而交叉注意力模块允许以VLM 输出的视觉-语言token嵌入 $\phi_{t}$ 为条件
在最终的DiT 模块之后，对最终的H 个token应用一个特定于体现的动作解码器(另一个MLP）以预测动作

给定一个真实值动作块 $A_{t}$ ，一个流匹配时间步 $\tau \in[0,1]$ 以及采样噪声 $\epsilon \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$ ，噪声化的动作块 $A_{t}^{\tau}$ 通过以下公式计算：

$A_{t}^{\tau}=\tau A_{t}+(1-\tau) \epsilon$

模型预测 $V_{\theta}\left(\phi_{t}, A_{t}^{\tau}, q_{t}\right)$ ——相当于是预测的噪声，最终旨在通过最小化以下损失函数以逼近去噪向量场 $\epsilon-A_{t}$ ——相当于是所添加的噪声「毕竟本质就是让预测逼近真实」

$\mathcal{L}_{f m}(\theta)=\mathbb{E}_{\tau}\left[\left\|V_{\theta}\left(\phi_{t}, A_{t}^{\tau}, q_{t}\right)-\left(\epsilon-A_{t}\right)\right\|^{2}\right]$

如同π0中所述，作者使用 $p(\tau)=\operatorname{Beta}\left(\frac{s-\tau}{s} ; 1.5,1\right)$ , $s=0.999$

在推断过程中，通过 $K$ 步去噪生成动作块

首先，随机采样 $A_{t}^{0} \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$ ，然后使用前向欧拉积分迭代生成动作块，更新如下 $A_{t}^{\tau+1 / K}=A_{t}^{\tau}+\frac{1}{K} V_{\theta}\left(\phi_{t}, A_{t}^{\tau}, q_{t}\right)$
且在实践中，他们发现K = 4 推理步骤在所有实现中都能很好地运行

1.3 训练数据：真实数据、人类视频、视频生成数据、仿真数据

1.3.1 对于无标注的人类视频：通过潜在操作获取潜在动作token

对于人类自我中心视频和模型预测的神经轨迹neural trajectories，没有任何可以直接用于训练GR00T N1 的动作

这些数据集不包含明确的动作标签，但包含了人类与物体交互的大量序列，捕捉了可供性、任务语义和自然的运动模式。这些数据集涵盖了广泛的真实世界人类行为，包括抓取、工具使用、烹饪、组装以及在自然环境中执行的其他任务导向的活动，并提供了详细的内容

第一人称视角的手物交互（示例如下图图11所示），整个视频数据集包括以下内容：

Ego4D 是一个大规模的第一人称视频数据集，包含日常活动的多样化录制
Ego-Exo4D 补充了第三人称（外部）视角，与第一人称录制相结合(Grauman 等，2024)
Assembly-101 通过提供逐步对象组装的详细视频，专注于复杂的组装任务(Sener 等,2022)
EPIC-KITCHENS 包括烹饪活动的第一人称视频镜头(Damen 等, 2018)
HOI4D 捕捉了具有逐帧注释的人与物体交互，包括分割、手部和物体姿势以及动作(Liu 等, 2022)
HoloAssist捕获了增强现实环境中的协作和辅助任务(Wang等，2023)
RH20T-Human包括了对细致操作任务的记录，重点是自然的手部与物体交互，涵盖多种真实世界场景(Fang等，2023)

对于这些数据，他们通过训练一个VQ-VAE 模型来从视频的连续图像帧中提取特征，从而类似LAPA或Google的Genie 生成潜在动作

编码器接受一个视频的当前帧 $x_t$ 和未来帧 $x_{t+H}$ （具有固定窗口大小H，如上图所示，H可以等于1），并输出潜在动作 $z_t$ ——上图用 $a_t$ 表示
解码器被训练为接受潜在动作 $z_t$ 和 $x_t$ ，并重建 $x_{t+H}$

相当于

首先，训练一个潜在动作模型：从视频中提取背后的潜在动作信息
该模型使用VQ-VAE 目标进行训练，其中编码器的连续嵌入被映射到codebook中的最近嵌入「where the continuous embedding from the encoder is mapped to the nearest embedding from the codebook」
然后后续便可以再预训练一个潜在规划器：预测潜在动作token序列
即在训练(一个潜在动作模型)之后，作者再采用编码器并将其用作逆动力学模型；给定一个 $x_t$ 和 $x_{t+H}$ 对，提取连续的量化前嵌入pre-quantized embedding，并将其用作(潜在规划器)预训练期间的潜在动作标签，相当于潜在规划器Latent Planner预测潜在动作token $\mathbf{P}\left(z_{t} \mid I_{t}^{h}, I_{t}^{l}, I_{t}^{r}, l\right)$ 的ground truth便是基于头部视角的LAM 编码器生成的 $z_{t}:=\mathbf{I}\left(I_{t}^{h}, I_{t+H}^{h}\right)$ —— $z_{t}=\left[z_{t}^{0}, \ldots, z_{t}^{k-1}\right]$ ，即可让他两之间通过流匹配建loss
After training, we take the encoder and use it as an inverse dynamics model; given an𝑥𝑡 and 𝑥𝑡+𝐻 pair, we extract the continuous pre-quantized embedding and use this as the latent action label during pre-training

从而使用相同的流匹配损失，但将其视为一个独特的”LAPA” 形态，也类似此文ViLLA中介绍的「1.2.2 潜在规划器：预测潜在动作token序列」

将VQ-VAE 模型训练在所有异质数据上可以使他们统一所有数据共享相同的学习潜在动作空间，从而可能改善跨形态的泛化

下图图4 展示了来自包括机器人和人类形态在内的8 种不同形态的 $x_t$ 和 $x_{t+H}$ 对，所有这些对都从相似的潜在动作中检索

第一个潜在动作展示了所有形态将右臂从右移动到左
第二个潜在动作展示了将右臂从左移动到右

1.3.2 视频生成：为增强Neural Trajectories——通过真实的远程操作数据微调视频生成模型

机器人数据随着人类劳动线性扩展，因为通常需要人类操作员远程操作机器人以生成每个轨迹

最近，视频生成模型在高质量可控视频生成方面展示了显著潜力，为在机器人领域构建世界模型铺平了道路
为了利用这些模型，英伟达对图像到视频生成模型(Agarwal 等，2025；Wan Team，2025；Yang 等，2024)进行了微调——使用他们内部收集的88小时远程操作数据，并在现有初始帧和新颖的语言提示下生成了827小时的视频数据，扩增了约10倍

具体而言，他们对WAN2.1-I2V-14B（Wan团队，2025）使用LoRA（Hu等人，2022）在收集的远程操作轨迹上进行微调。这些轨迹被均匀下采样到480P分辨率的81帧用于微调
为了生成这约827 小时的视频；他们在一张L40 GPU 上生成一秒视频需要2 分钟，并且在3,600 张L40 GPU 上大约花费了105k L40 GPU 小时（约1.5 天）

这使得生成的训练数据能够捕获更多的现实世界模拟场景counter factual scenarios，而无需为每种情况实际收集远程操作数据，示例如下图图5所示

且为了增加神经轨迹的多样性，首先使用商用级多模态大型语言模型(LLM)——比如我个人猜测可以是GPT4o，来检测初始帧中的物体，并生成更多可能的“从{位置A}拾取{物体}到{位置B}”的组合，同时指示模型仅考虑物理上可行的组合
相当于让GPT4o为视频生成模型规划出可行的模拟轨迹
还应用后处理机制，包括对生成的视频进行过滤和重新添加字幕
$\rightarrow$ 为此，他们还使用商用级多模态LLM作为裁判，并将下采样的8帧输入用于过滤那些未能严格遵循语言指令的神经轨迹
$\rightarrow$ 然后，为过滤出的视频添加字幕
即从每个视频中采样8帧，并提示一个商用级多模态LLM评估其是否符合指令。不符合该标准的视频将重新生成字幕，在此过程中视频被下采样到256P分辨率的16帧

在包含3,000 个带有语言注释的现实世界机器人数据样本的数据集上训练了模型100 个epoch，每个样本以480P 分辨率记录，由81 帧组成

如下图图5 所示，他们的模型可以根据新的语言提示生成高质量的反事实轨迹
此外，在互联网规模视频数据上训练的模型在处理未见过的初始帧、新颖的物体和新的运动模式方面表现出很强的泛化能力
这些视频进一步被标注为潜在动作和基于IDM 的伪动作，用于模型训练

1.3.3 仿真轨迹：仿真中基于DexMimicGen自动生成训练数据

原论文表示，由于同时控制双臂和灵巧手的挑战，为人形机器人扩展真实世界数据收集非常昂贵

但最近的研究（Jiang 等，2024；Mandlekar 等，2023；Wang 等，2024）表明，在仿真中生成训练数据是一种实际的替代方法
故他们使用 DexMimicGen（Jiang 等，2024）合成大规模的机器人操作轨迹
从一小组人类演示开始，DexMimicGen通过演示转换和模拟回放来自动扩展数据集。每个任务被分解为一系列以对象为中心的子任务。初始的人类演示被分割成更小的操作序列，每个序列对应一个涉及单一对象的子任务。这些片段通过与对象的位置对齐来适应新环境

同时保持机器人末端执行器与对象之间的相对姿态。为了确保平滑的执行，系统在机器人当前状态和转换后的片段之间插入运动插值
然后，机器人逐步跟随完整的序列，验证任务的成功结束
且他们仅保留成功的演示，以确保高质量数据
通过使用DexMimicGen，他们将有限的人类演示集扩展为大规模的人形操控数据集。考虑到训练前和训练后的数据集，总计生成了780,000个模拟轨迹——相当于6,500小时或连续九个月的人类演示数据——仅用了11小时
这些模拟数据以极低的人力成本显著补充了真实机器人数据

任务包含大量逼真的3D 资产

他们在RoboCasa 模拟框架（Nasiriany 等，2024）下构建了这些任务。总体而言，任务遵循” 将A 从B 重新排列到C” 的行为，其中A 对应一个物体，B 和C 分别代表环境中的源位置和目标位置。源位置和目标位置是诸如盘子、篮子、餐垫和架子之类的容器，机器人必须在源容器和目标容器的不同组合之间重新排列物体
总体而言，他们的预训练模拟数据集包含54 种源容器和目标容器类别的独特组合
他们将物体和容器随机放置在桌子上，并在场景中额外加入干扰物体和容器。这些干扰物要求模型关注任务语言以执行期望的行为

此外，他们使用DexMimicGen以大规模生成多样化的高质量训练数据集

首先通过使用LeapMotion设备的远程操作收集几组来源演示。Leap Motion设备跟踪6自由度的手腕姿态和手指姿态
重新定位这些值并将其发送到基于mink (Zakka, 2024) 的全身IK控制器
基于人类演示，DexMimicGen将演示处理为以对象为中心的段落，然后转换并组合这些段落以生成新的演示

使用该系统，他们为每个(来源，目标)接收器对在他们的预训练任务框架中生成了10,000个新演示，总共生成了540k个演示

顺带说一句，这个做法，其实我司「七月在线」也在用：即在仿真中通过仿真数据基于RL训练一个base model，然后再在真实环境中基于模仿学习采集真实数据做微调

1.3.4 真实世界数据集

他们使用以下真实世界的机器人数据集：

GR00T N1 人形机器人预训练数据集。他们内部收集的数据集涵盖了广泛的通用操作任务，重点是通过远程操作进行的傅里叶GR1
且利用VIVE Ultimate Tracker捕捉远程操作员的手腕姿态
同时使用Xsens Metagloves跟踪手指运动

另，他们还探索了其他远程操作硬件选项，包括Apple Vision Pro和Leap Motion，见下图图6
记录的人类动作然后通过逆向运动学重新定位为人形机器人动作
实时远程操作以20Hz的控制频率运行

除了机器人的动作外，还在每个步骤捕获来自头戴相机的图像，以及人类的低维本体感知和动作。该数据集包括精细的注释，详细描述了诸如抓取、移动和放置等原子动作，以及粗粒度的注释，将精细动作序列聚合为高级任务表示。这种分层结构支持精确运动控制和高级任务推理的学习
Open X-Embodiment
Open X-Embodiment Collaboration 等人是一个广泛使用的跨实体机器人操作数据集
包括了 RT-1（Brohan 等人，2022）、Bridge-v2（Walke 等人，2023）、Language Table（Lynch 等人，2022）、DROID（Khazatsky 等人，2024）、MUTEX（Shah 等人，2023）、RoboSet（Bharadhwaj 等人，2024）和 Plex（Thomas 等人，2023），提供了涵盖各种操作任务、语言条件控制和机器人-环境交互的多样化数据集
AgiBot-Alpha.AgiBot-World-Contributors 等人是一个由 100 个机器人生成的大规模轨迹数据集
他们在训练运行启动时使用了当时可用的 140,000 条轨迹。该数据集涵盖了精细操作、工具使用以及多机器人协作

1.4 训练的更多细节

1.4.1 预训练

在预训练阶段，GR00T N1通过上面提到的流匹配损失函数

$\mathcal{L}_{f m}(\theta)=\mathbb{E}_{\tau}\left[\left\|V_{\theta}\left(\phi_{t}, A_{t}^{\tau}, q_{t}\right)-\left(\epsilon-A_{t}\right)\right\|^{2}\right]$

在多样化的体现和数据源集合上进行训练，包括各种真实和合成的机器人数据集以及人类运动数据

对于人类视频，在没有真实动作的情况下，他们提取学习的潜在动作并将其用作流匹配目标
对于机器人数据集，例如GR-1人形数据或Open X-Embodiment数据，同时使用真实的机器人动作以及学习的潜在动作作为流匹配目标
在用于增强机器人数据集的神经轨迹(见第2.2.2节)的情况下，同时使用潜在动作以及从基于真实机器人数据训练的逆动力学模型预测的动作。预训练超参数列于附录中的表6

1.4.2 后训练

在后训练阶段，他们在对应于每个单独实现的数据集上微调他们的预训练模型

与预训练中一样，他们保持视觉语言主干的语言组件冻结，并微调模型的其余部分。后训练的超参数在附录的表6中给出
使用神经轨迹进行后训练为了克服后训练过程中数据稀缺的挑战，他们探讨通过生成神经轨迹来增强每个下游任务的数据，这类似于第2.2节中描述的过程
对于基于多视图条件的下游任务，他们微调视频模型以在网格中生成多个子图像，如下图图14所示
对于模拟任务，从随机初始化的环境中收集多样化的初始帧
对于真实机器人任务，他们手动随机初始化物体的姿态并记录机器人的初始观察。新的初始帧也可以通过img2img扩散自动创建，但他们将进一步探索留待未来工作中进行

且他们还展示了
1) 用于生成由原子任务组成的长时间轨迹的多轮视频生成示例
比如，下图展示了两个连续的序列，其中后一序列的初始帧来自前一序列的结束帧，突出了生成需要原子任务组合的任务轨迹的可能性
以及 2)液体和关节物体的神经轨迹示例，这些轨迹被认为是极具挑战性的模拟任务，尽管他们将下游任务的定量评估留待未来工作中进行
对于他们的基于神经轨迹的后训练管道，仅限于在仿真任务中微调视频生成模型，仅使用人类收集的轨迹，以及用于后训练的现实世界基准数据的10%，以匹配他们只能访问有限数量的远程操作数据的现实场景
由于生成的视频没有动作标签，故他们使用潜在或逆动态模型(IDM)标记的动作(Baker等人，2022)，并训练策略模型将这些伪动作视为不同体现的动作标签
在低数据量情景下，也仅限于在低数据上训练IDM模型，以便于现实场景的模拟
至于如何训练IDM模型的详细信息在附录E中提供。在原论文第4.4节中对潜在和IDM标记的动作进行了某些经验比较。在后训练过程中，以1:1的采样比例联合训练策略模型，使用现实世界的轨迹和神经轨迹

1.4.3 训练基础设施

他们在通过NVIDIA OSMO（NVIDIA，2025）管理的集群上训练GR00T N1，这是一个用于扩展复杂机器人工作负载的编排平台

训练集群配备了通过NVIDIA Quantum-2 InfiniBand连接的H100 NVIDIA GPU，采用胖树拓扑结构
通过一个基于Ray分布式计算库（Moritz等，2018）构建的自定义库，促进容错的多节点训练和数据摄取
为单个模型使用多达1024个GPU。GR00T-N1-2B大约使用了50,000个H100 GPU小时进行预训练
在单个A6000 GPU的环境下测试了计算受限的微调
如果仅调整adapter层(动作和状态编码器 + 动作解码器)和DiT，可以使用最多200的批量大小
当调整视觉编码器时，可以使用最多16的批量大小

// 待更