π0.5: a Vision-Language-Action Model with Open-World Generalization

序号

属性
1论文名称π0.5
2发表时间/位置2025
3CodeA VLA with Open-World Generalization
4创新点

1:联合训练多源数据。融合多源数据使模型在新环境和未见物体上具备强泛化能力。

2:两阶段训练流程。采用预训练和后训练的两阶段寻览流程,保证低层动作控制精确,同时保留高层语言理解能力。

3:连续动作预测与 Flow Matching。用连续动作 chunks 代替逐步动作预测,flow matching 构造中间点,实现非自回归连续动作预测。提升推理速度,同时保证动作流畅性和准确性。 4:统一动作维度与归一化处理。不同机器人动作空间统一到最大维度,低维动作用零填充,并且动作数据归一化到[-1,1]。支持多类型机器人同时训练和迁移

5:高层任务推理。模型根据高层指令自动生成更小的子任务,类似欸与cot的原理,提高模型多阶段任务规划能力。

5引用量π0后的又一力作,是比较值得看看的。

一:提出问题

为了让机器人真正有用它们必须能够在现实世界中、实验室之外执行具有实际意义的任务。虽然VLA已经在端到端机器人控制上展现出了令人印象深刻的成果,但是有一个核心问题还没有解决:“这样的模型在真实环境中到底能泛化到什么程度?也就是在开放环境中,如何提升机器人的泛化能力。”

π0.5 是 π0 的升级版,核心策略是“多任务、跨模态协同训练“,通过使用多种来源的数据(多机器人 + 网页 + 语义预测 + 语言指令 + 图像)训练 VLA 模型,让机器人获得真正的“通用能力”。首次实验证明:一个端到端训练的机器人模型能在陌生家庭中执行长时序任务,如整理厨房、整理卧室。

1.Scale is not enough:仅仅去扩大模型的规模是不够的,因为真实世界太多样了,机器人要学到的只是不是靠堆数据就够的。必须要学会从不同的信息源迁移知识与经验。机器人需要多个层次的知识(低层动作技能,高层语义理解等)。

2.VLA的同意序列建模框架,使得”多模态融合“变得可行。VLA可以把所有模态当成 token 序列。如图像,语言,动作等模态数据。即使数据模态不同,也可以塞进一个Transformer中进行训练。

而本文的π0.5 ,采用多来源数据协同训练的思想,采用了包括400 小时移动机器人真实家庭数据、其他机械臂的数据、高层语义任务预测、人类 Supervisor 提供的语言指令、网页数据。其中绝大部分数据根本不是”机器人做家务“的数据,但是这些异质数据共同提升了泛化能力。

在训练时,π0.5采用两阶段训练架构:

阶段一:预训练。目的:学“世界知识”+“语义理解”+“动作技能”

阶段二:专门微调。目的:让模型能实际控制移动 manipulators(机械臂)

运行阶段的 Hierarchical Control(两层控制):

第一步:预测高层语义 subtask

例如(预测子任务):

  • Pick up towel

  • Open cabinet

  • Move plate to sink

  • Rearrange pillow

相当于“下一步要做什么?"

第二步:预测低层 motor action chunk,例如移动多少厘米、手臂轨迹等。

这种架构让 robot 可以执行长序列任务,如:10–15 分钟连续整理厨房。

二:解决方案

PRELIMINARIES

VLA 通常通过模仿学习,在多样化的机器人示范数据集上进行训练。其训练目标是最大化给定观察ot和自然语言任务指令l时,动作at的对数似然。观察 ot 通常包含一个或多个图像 It1,...,Itn,以及本体状态 qt(表示机器人关节位置)。

VLA架构遵循视觉语言模型的设计模式,VLA 是一种“把所有东西都当作 token 序列”的系统,这样可以把机器人控制 → 变成 LLM 的下一个 token 预测任务。而动作token的编码方式主要有两种,第一种是Compression-based tokenization(离散/软离散 tokens),像 VQVAE 或 residual VQ,把动作打包成较短 token 序列。相当于动作的“压缩编码”。π0.5 的预训练阶段用这个。另一种是扩散模型 / Flow Matching(连续动作)的方式,如RT-1/RT-2、π0)常用diffusion model(扩散)和 flow matching(流匹配表达能力强,连续值更精确,动作平滑,特别适合操控任务),π0 和 π0.5 的核心是: 动作阶段用 flow matching。

动作专家(Action Expert)是指动作 token 有独立的模型子模块(expert weights),类似Mixture of Experts(MoE,混合专家模型)结构,但专门用于动作生成。所以 π0.5 使用:LLM Backbone 负责理解语言 + 图像 + 上下文,Action Expert 负责精确生成动作(flow matching 输出)实现即高效又灵活的特点。

模仿学习:其本质就是监督学习,但是其训练数据不是来自于普通的标签工程师打出来的数据,而是来自于机器人专家的示范。其实模范学习就是用监督学习来学一条控制策略,区别仅在于标签是什么:

  • 普通深度学习:标签是类别、数字、文本

  • 模仿学习:标签是动作-来自于机器人专家

Flow Matching:比 diffusion 更干净、计算量更小的连续生成模型。它被用于图像生成,也最近常用于 机器人动作生成。学一个“把噪声推向数据”的速度场。

Diffusion 做的是:

从数据 → 加噪声 从噪声 → 去噪(推理时)

而 Flow Matching :直接建模一个 ODE:从噪声 → 数据

模型只需要学一个向量场 vθ,告诉你“在时间 t 时,x 应该往哪里移动”最终会移动到真实数据分布。

THE π0.5 MODEL AND TRAINING RECIPE:

π0.5 architecture:π0.5 可以同时表示连续动作chunk的分布(flow matching,π0.5 不是用普通的高斯模型来表示动作分布,而是用 flow matching 来表示。)或者离散文本token的输出(用于问答、或者输出高层子任务subtask)

模型表示的一个概率分布是(模型不直接给动作,而是给一个动作的概率分布。)

  • 表示多相机图像 + 机器人关节配置

  • ℓ:整体任务指令(如 “把碟子收起来”)

  • ℓ^:模型输出的文本(如 “拿起盘子”)或视觉问答的答案

  • at: t+H:模型预测的动作 chunk

概率分布可以分解为:

  • 高层推理输出 ℓ^

  • 底层推理输出动作 at:t+H

  • 同一个 transformer 负责这两个分布

Transformer 输入 x1:Nx1:N 是多模态 token,包括文本 token,图像 patch(vision encoder 处理)和 flow matching 的中间动作状态(连续)根据 token 类型,每种 token 可能使用不同的“专家权重”,例如图像 → vision encoder,文本 → embedding matrix,动作 → action expert(专用参数)。注意与 LLM 不同图像、文本、动作 token 都是双向注意力(bidirectional attention)。

模型的输出 y 也被分成两种,文本 logits(用于预测子任务)和连续动作(由 action expert 输出,再投影为动作向量)

Combining discrete & continuous action representations:π0.5 与 π0 一样,在最终模型中使用 flow matching 预测连续动作。

flow matching 构造中间点(Flow Matching 的核心就在于把噪声到真是动作这一条路径拆分为很多中间点,然后模型预测在每个中间点应该往哪里走(就是所谓的速度场),也就是说,Flow Matching 是把生成动作当成“走一条路径”,中间点就是路径上的位置。):

模型学习预测:

即 flow vector field(流向向量场,告诉模型在“当前状态”应该往哪个方向前进的箭头,表示动作应该朝哪个方向变化、以多大速度变化。)。

为什么预训练用离散 token,而后训练用 continuous?

因为:

  • 离散 token(FAST tokenizer)训练非常快(特别是压缩 action chunk)

  • 但推理非常慢(需要自回归生成动作 token)

而连续 flow matching:

  • 推理快(10 步)

  • 适合实时控制

因此 π0.5 同时学习:

  1. 离散 token 的动作(用于预训练高速训练)

  1. 连续 flow matching 的动作(用于推理,高效控制)

两种动作表示之间通过注意力被隔离。

其中,是文本 + FAST 动作 token 的 cross entropy,

这里的 FAST 是 π0 / π0.5 模型里专门用来对 连续动作序列进行离散化编码(tokenization) 的方法,它的作用是把连续动作向量变成一串离散的 动作 token,从而可以用标准的 自回归 transformer 训练,类似处理文本 token 的方式。

是动作专家网络的输出(模块比主transformer要小很多)。α 是一个在两类损失之间做平衡的超参数。这种训练方式使我们可以在 第一阶段 把动作映射成 text token(FAST 离散编码),并将模型作为一个“普通 VLM Transformer” 来预训练(这时 α = 0,只训练离散 token 预测)。第一阶段完全不训练连续动作,只训练把动作当“文字”预测的能力。随后在第二阶段(后训练),再加入一套动作专家(action expert)的权重,让它能够以非自回归方式预测连续动作 token,从而在推理时实现高速的连续动作生成。离散动作训练稳定 → 连续动作推理快

推理时:先自回归生成高层文本,再做 10 步 flow matching 去噪生成动作。

预训练阶段:在第一阶段训练中,π0.5 使用种类非常广泛的机器人与非机器人数据进行训练,这一阶段模型被训练成标准的自回归 Transformer,执行的任务是预测下一个token的任务,包括文本token,物体位置token ,FAST离散编码的动作token。

  1. 多样化移动操作数据(MM):使用大约 400 小时的移动操控机器人数据,这些机器人在约 100 个家庭环境中执行各种日常任务。

  2. 多环境静态机器人数据(ME):收集了大量非移动机器人的数据(单臂或双臂),它们被固定在桌面或平台上。因为这些机器人轻便易携带,能在更多家庭中收集更多样化的数据。

  3. 跨机器人形态的实验室数据(CE):在实验室中采集了不同任务的数据,例如擦桌子、叠衣服等。这些场景简单、桌面为主,机器人类型多样(单臂、双臂、固定底座、移动底座)。

  4. 高层子任务预测数据(HL):对于诸如“清理卧室”这样的高层指令,将其拆成更短的子任务(如“整理被子”“捡枕头”)有助于机器人更好地理解场景和选择下一步动作。

    对 MM、ME、CE 数据中涉及多子任务的样本,作者人工标注了每个子任务的语义描述,并且训练 π0.5 同时预测子任务(文本)+ 子任务对应的动作。作者还标注了当前图像中相关物体的bounding box,训练模型在预测子任务之前也预测这些框。

  5. 多模态网页数据(WD):加入大量 Web 数据

针对动作数据,训练模型预测目标关节位姿末端执行器位姿。为了区分两者,文本提示中加入了<control mode>。所有动作数据按各动作维度的 1%–99% 分位数归一化到 [−1, 1],使用统一动作维度(不同机器人的动作维度不同,但是我们可以取一个最大的维度,如果不够这个最大维度,就用0来填充,这样能够实现同一个模型支持多种机器人),低维机器人动作向量 用零填充

后训练阶段(Post-training):在使用离散 token 预训练 280k 步后,我们进行第二阶段训练,即后训练。这一阶段主要的目的是:

  1. 将模型专门适配到我们的最终任务:家庭中的移动操作

  2. 加入一个能通过 flow matching 输出连续动作 chunk 的动作专家(action expert)

后训练采用联合训练的方式,同时戌年模型进行next-token 预测(保持语言能力)flow matching的动作学习(用于连续动作专家),其中,动作专家的参数在后训练开始时是随机初始化的。

使用公式(1)中的目标函数进行优化,α 设为 10.0,并额外训练 8 万步。后训练阶段使用的动作数据集来自 MM 和 ME 两类机器人数据,并过滤为长度较短且成功执行的轨迹。同时保留了部分网页数据(WD),用于维持模型的语义理解和视觉能力;也保留了多环境数据集中涉及高层子任务标签的那部分 HL 数据。此外,为了让模型更好预测高层子任务,额外收集了 语言指令示范(VI)数据。这些数据由专家用户提供,他们通过语言“遥操作”机器人,让机器人在已有低层策略的帮助下逐步完成移动操作任务。这相当于为模型提供了“优秀的高层子任务序列”的示范,使其能更好地产生合理的高层控制指令。

Robot system details :在移动操作实验中使用的机器人系统如图 5 所示。所有实验均使用两种类型的移动操作机器人平台。把复杂的规划和控制全部交给 π0.5 学习,硬件和 PD 控制器只负责基础的闭环跟踪。这保证了 端到端学习的可行性,也能在真实家庭环境中完成长时间、多步骤的任务。

三:实验

π0.5 模型的设计目标是能够 广泛泛化到新环境。 虽然通常 VLA 模型会在与训练环境类似的测试环境中评估,这里所有实验都在 未见过的全新环境 中进行。

  • 为了定量比较,使用了一组 模拟家庭环境 来提供可控且可重复的实验环境

  • 最终的最现实评估在 三个真实家庭 中进行,这些家庭不在训练集内

实验主要关注以下问题:

  1. π0.5 是否能在全新家庭中执行复杂多阶段任务?

  2. 泛化性能如何随训练数据中不同环境数量的增加而变化?

  3. π0.5 训练中的各个联合训练(co-training)成分对最终性能的贡献如何?

  4. π0.5 与 π0 VLA 的对比如何?

  5. 高层推理(high-level inference)组件的重要性如何?相比直接低层推理或“oracle”高层推理有何差异?

四:总结

π0.5,一个基于 π0 VLA 的联合训练模型,能够整合多种数据源,并在新环境中实现泛化。π0.5 可控制移动机械臂在未见过的家庭环境中执行任务,训练数据包括400h的移动机械臂操作数据,和其他类型机器人的数据以及互联网和高层任务数据。π0.5 展示了联合训练方案能够有效迁移,即使只有中等规模的移动操作数据,也能实现高度泛化的控制能力。

但是,仍然存在一些比较难解决的问题,解决这些问题可以通过 更好的联合训练、更强迁移能力以及更大规模数据集 实现,这是未来工作的一条有前景方向。

  1. 环境挑战

    • 某些环境具有持久性困难,例如不熟悉的抽屉把手或机器人难以打开的橱柜

  2. 行为挑战

    • 部分可观察性不足的问题,例如机械臂遮挡了需要擦拭的溢出物

  3. 高层子任务推理问题

    • 有时容易分心,例如在收纳物品过程中重复开关抽屉

在未来的主要工作方向:

  1. 技术约束

    • π0.5 可执行多种家务行为,但处理的指令相对简单

    • 模型可处理的指令复杂度取决于训练数据

    • 可通过更复杂、多样的标注(人工或合成)支持更复杂的偏好和指令

  2. 上下文与记忆

    • 当前模型使用的上下文有限

    • 融入丰富上下文和记忆可增强处理部分可观测环境的能力

      • 例如跨房间导航或记忆物品位置

  3. 数据源拓展

    • π0.5 探索了一种特定组合的异质数据源

    • 未来可以尝试更多数据源,例如:

      • 利用语言指令作为监督信号

      • 探索其他方式让人类为机器人提供额外上下文信息

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值