Introduction
现有的VLA模型主要有两个问题:一、当前模型大多是封闭的,难以了解其模型架构、训练过程和数据组合;二、缺乏部署和适应VLA模型到新机器人、环境和任务的最佳实践,尤其是在普通硬件上
OpenVLA在WidowX和谷歌机器人实施例的29个评估任务中,其绝对成功率比之前最先进的VLA (55b参数RT-2-X模型[1,7])高出16.5%。
RT-2
鉴于Open VLA是仿照RT-2的,所以...
LLaVA
又因为RT-2是沿用LLaVA的构型,所以...
Open VLA
图2:OpenVLA模型架构。给定图像观察和语言指令,该模型预测7维机器人控制动作。该架构由三个关键组件组成:(1)连接Dino V2[25]和SigLIP[77]特征的视觉编码器,(2)将视觉特征映射到语言嵌入空间的投影仪,以及(3)LLM主干,Llama 2 7b参数大型语言模型[10]。
Prismatic遵循上述相同的标准架构,
具有600m参数的视觉编码器,一个小型2层MLP投影仪和一个7b参数的Llama 2语言模型主
干[10]。
Prismatic使用了两部分视觉编码器,由预训练的SigLIP[77]和
DinoV2[25]模型组成。输入图像补丁分别通过两个编码器传递,得到的特征向量按通道连接。
与更常用的视觉编码器(如CLIP-[78]或仅siglip编码器)相比,DinoV2特征的添加已被证明有
助于改进空间推理[44],这对机器人控制尤其有帮助。
Training Data
构建OpenVLA训练数据集的目标是捕获大量不同的机器人实施例、场景和任务。并允许对新的机器人设置进行有效的微调。
我们利用OpenX-Embodiment数据集[1](OpenX)作为基础来管理我们的训练数据集。
为了使对这些数据的训练切实可行,我们对原始数据集应用了多个数据策展步骤。
这种策展的目标是确保:(1)在所有训练数据集上有一个连贯的输入和输出空间,以及(2)在最终的训练混合中平衡地混合实施例、任务和场景为了解决(1),我们遵循[1,5]并限制我们的训练数据集仅包含至少一个3rd人相机的操作数据集,并使用单臂末端执行器控制。
对于(2),我们对通过第一轮过滤的所有数据集利用Octo[5]的数据混合权重。Octo启发式地降低或删除多样性较小的数据集,并增加具有较大任务和场景多样性的数据集的权重;
还尝试将一些自Octo发布以来添加到OpenX数据集的额外数据集合并到我们的训练混合物
中,包括DROID数据集[11],尽管混合权重为10%。
Experiments
在每个环境中定义了一套全面的评估任务,涵盖了各种泛化轴,例如
视觉(看不见的背景、干扰物、物体的颜色/外观);
运动(看不见的物体位置/方向);
物理(看不见的物体大小/形状);
语义(看不见的目标对象、指令和来自互联网的概念)泛化。
还评估了具有多个对象的场景中的语言调节能力,测试策略是否可以按照用户提示中指定的方式操作正确的目标对象。
Discussion and Limitations
我们提出了OpenVLA,这是一种最先进的、开源的视觉语言动作模型,它
在跨体现机器人控制方面获得了开箱即用的强大性能。
当前的OpenVLA模型有几个限制:首先,它目前只支持单图像观测。
其次,提高OpenVLA的推理吞吐量对于实现VLA控制高频控制设置至关重要,例如ALOHA
[88],其运行频率为50Hz。
此外,还有进一步性能改进的空间。