OpenVLA: An Open-Source Vision-Language-Action Model

发表时间:13 Jun 2024

作者单位:Stanford University

Motivation: the potential to change how we teach robots new skills。然而,VLA 对机器人技术的广泛采用具有挑战性,因为 1)现有的 VLA 在很大程度上是封闭的并且公众无法访问的,以及 2)先前的工作未能探索为新任务有效地微调 VLA 的方法,这是采用的关键组成部分。

解决方法:OpenVLA, a 7B-parameter open-source VLA trained on a diverse collection of 970k real-world robot demonstrations(模仿学习)。OpenVLA 采用更端到端的方法,直接微调 VLM 通过将机器人视为语言模型词汇表中的token来生成机器人动作。我们的实验评估表明,这种简单但可扩展的pipline大大提高了先前generalist策略的性能和泛化能力。

实现方式

模型结构:With a 600M-parameter visual encoder, a small 2-layer MLP projector, and a 7B-parameter Llama 2 language model backbone.

Notably, Prismatic uses a two-part visual encoder, consisting of pretrained SigLIP and DinoV2 models.与更常见的视觉编码器(如CLIP-[78]或仅SigLIP编码器)相比,DinoV2特征的添加已被证明有助于提高空间推理[44],这对机器人控制特别有帮助。 OpenVLA Training Procedure:fine-tune a pretrained Prismatic-7B VLM backbone for robot action prediction。我们将动作预测问题制定为“视觉语言”任务,其中输入观察图像和自然语言任务指令被映射到一系列预测的机器人动作。

Training Data我们利用 Open X-Embodiment 数据集 [1] (OpenX) 作为基础来管理我们的训练数据集。在撰写本文时,完整的 OpenX 数据集由 70 多个单独的机器人数据集组成,具有超过 2M 机器人轨迹,这些轨迹被汇集成一个连贯且易于使用的数据格式,以巨大的社区努力。(同时对这些数据集进行了一定的处理,详见原文)

OpenVLA Design Decisions(介绍了OPENVLA是为什么这么设计的):

  1. 试验了多个VLM主干,发现 IDEFICS 最牛逼。

  2. 尝试了224 × 224px and 384 × 384px inputs分辨率的图像,发现都一样,就使用了224 × 224px。

  3. 我们发现在 VLA 训练期间微调视觉编码器对于良好的 VLA 性能至关重要。 跟有利于场景理解和空间细节

实验

Direct Evaluations on Multiple Robot Platforms:on two robot embodiments: the WidowX robot from the BridgeData V2 evaluations。

Data-Efficient Adaptation to New Robot Setups:我们还研究了 VLA 的有效微调策略,这是先前工作中没有探索的新贡献,跨越 7 个不同的操作任务,跨越来自对象拾取和放置的行为以清理桌子。

将VLA模型有效地微调到新任务和机器人设置在很大程度上还没有被探索,但这是它们广泛采用的关键。在本节中,我们研究了 OpenVLA 快速适应新机器人设置的能力。 我们为 OpenVLA 模型测试了一个简单的微调方法:对所有模型参数进行完全微调,使用目标任务的 10-150 个演示的小型数据集。

使用的10–150 demonstrations of a target task,非常少!!!

这里的任务是跨机器人任务,我的 few-shot action learning 也可以使用这种任务设定!!!!

Parameter-Efficient Fine-Tuning:尝试了不同的参数高效微调的方式。

  1. full finetuning

  2. last layer only

  3. frozen vision,sandwich fine-tuning unfreezes the vision encoder, token embedding matrix, and last layer

  4. LoRA:all linear layers of the model.

最后,LoRA 在性能和训练内存消耗之间取得了最好的结果,优于“三明治微调”并匹配完整的微调性能,同时仅微调 1.4% 的参数。

结论:Secondly, improving the inference throughput of OpenVLA is critical to enable VLA control for high-frequency control setups such as ALOHA [88 ], which runs at 50Hz。This will also enable testing VLAs on more dexterous, bi-manual manipulation tasks than what we investigated in this work.

由于计算限制,许多 VLA 设计问题仍未得到充分探索:

基础 VLM 的大小对 VLA 性能的影响有多大。

机器人动作预测数据和互联网规模的视觉语言数据的联合训练是否大大提高了VLA的性能。

哪些视觉特征最适合 VLA 模型。

我们希望 OpenVLA 模型和代码库的发布将使社区能够共同调查这些问题。

  • 14
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ming__chen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值