OpenVLA: An Open-Source Vision-Language-Action Model[2406.09246](论文浅读)

Introduction

现有的VLA模型主要有两个问题:一、当前模型大多是封闭的,难以了解其模型架构、训练过程和数据组合;二、缺乏部署和适应VLA模型到新机器人、环境和任务的最佳实践,尤其是在普通硬件上

OpenVLA在WidowX和谷歌机器人实施例的29个评估任务中,其绝对成功率比之前最先进的VLA (55b参数RT-2-X模型[1,7])高出16.5%。

RT-2

鉴于Open VLA是仿照RT-2的,所以...

LLaVA

又因为RT-2是沿用LLaVA的构型,所以...

Open VLA

图2:OpenVLA模型架构。给定图像观察和语言指令,该模型预测7维机器人控制动作。该架构由三个关键组件组成:(1)连接Dino V2[25]和SigLIP[77]特征的视觉编码器,(2)将视觉特征映射到语言嵌入空间的投影仪,以及(3)LLM主干,Llama 2 7b参数大型语言模型[10]。

Prismatic遵循上述相同的标准架构,

具有600m参数的视觉编码器,一个小型2层MLP投影仪和一个7b参数的Llama 2语言模型主

干[10]。

Prismatic使用了两部分视觉编码器,由预训练的SigLIP[77]和

DinoV2[25]模型组成。输入图像补丁分别通过两个编码器传递,得到的特征向量按通道连接。

与更常用的视觉编码器(如CLIP-[78]或仅siglip编码器)相比,DinoV2特征的添加已被证明有

助于改进空间推理[44],这对机器人控制尤其有帮助。

Training Data

构建OpenVLA训练数据集的目标是捕获大量不同的机器人实施例、场景和任务。并允许对新的机器人设置进行有效的微调。

我们利用OpenX-Embodiment数据集[1](OpenX)作为基础来管理我们的训练数据集。

为了使对这些数据的训练切实可行,我们对原始数据集应用了多个数据策展步骤。

这种策展的目标是确保:(1)在所有训练数据集上有一个连贯的输入和输出空间,以及(2)在最终的训练混合中平衡地混合实施例、任务和场景为了解决(1),我们遵循[1,5]并限制我们的训练数据集仅包含至少一个3rd人相机的操作数据集,并使用单臂末端执行器控制。

对于(2),我们对通过第一轮过滤的所有数据集利用Octo[5]的数据混合权重。Octo启发式地降低或删除多样性较小的数据集,并增加具有较大任务和场景多样性的数据集的权重;

还尝试将一些自Octo发布以来添加到OpenX数据集的额外数据集合并到我们的训练混合物

中,包括DROID数据集[11],尽管混合权重为10%。

Experiments

在每个环境中定义了一套全面的评估任务,涵盖了各种泛化轴,例如

视觉(看不见的背景、干扰物、物体的颜色/外观);

运动(看不见的物体位置/方向);

物理(看不见的物体大小/形状);

语义(看不见的目标对象、指令和来自互联网的概念)泛化。

还评估了具有多个对象的场景中的语言调节能力,测试策略是否可以按照用户提示中指定的方式操作正确的目标对象。

Discussion and Limitations 

我们提出了OpenVLA,这是一种最先进的、开源的视觉语言动作模型,它
在跨体现机器人控制方面获得了开箱即用的强大性能。

当前的OpenVLA模型有几个限制:首先,它目前只支持单图像观测。

其次,提高OpenVLA的推理吞吐量对于实现VLA控制高频控制设置至关重要,例如ALOHA
[88],其运行频率为50Hz。

此外,还有进一步性能改进的空间。

  • 17
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值