OpenVLA: An Open-Source Vision-Language-Action Model

Ming_Chens

已于 2025-02-25 10:29:31 修改

阅读量1.7k

点赞数 19

分类专栏：具身智能文章文章标签：人工智能语言模型机器学习深度学习

于 2024-08-15 16:56:41 首次发布

本文链接：https://blog.csdn.net/s_m_c/article/details/141226629

版权

具身智能文章专栏收录该内容

43 篇文章

订阅专栏

发表时间：13 Jun 2024

作者单位：Stanford University

Motivation: the potential to change how we teach robots new skills。然而，VLA 对机器人技术的广泛采用具有挑战性，因为 1）现有的 VLA 在很大程度上是封闭的并且公众无法访问的，以及 2）先前的工作未能探索为新任务有效地微调 VLA 的方法，这是采用的关键组成部分。

解决方法：OpenVLA, a 7B-parameter open-source VLA trained on a diverse collection of 970k real-world robot demonstrations（模仿学习）。OpenVLA 采用更端到端的方法，直接微调 VLM 通过将机器人视为语言模型词汇表中的token来生成机器人动作。我们的实验评估表明，这种简单但可扩展的pipline大大提高了先前generalist策略的性能和泛化能力。

实现方式：

模型结构：With a 600M-parameter visual encoder, a small 2-layer MLP projector, and a 7B-parameter Llama 2 language model backbone.

Notably, Prismatic uses a two-part visual encoder, consisting of pretrained SigLIP and DinoV2 models.与更常见的视觉编码器(如CLIP-[78]或仅SigLIP编码器)相比，DinoV2特征的添加已被证明有助于提高空间推理[44]，这对机器人控制特别有帮助。 OpenVLA Training Procedure：fine-tune a pretrained Prismatic-7B VLM backbone for robot action prediction。我们将动作预测问题制定为“视觉语言”任务，其中输入观察图像和自然语言任务指令被映射到一系列预测的机器人动作。

Training Data：我们利用 Open X-Embodiment 数据集 [1] (OpenX) 作为基础来管理我们的训练数据集。在撰写本文时，完整的 OpenX 数据集由 70 多个单独的机器人数据集组成，具有超过 2M 机器人轨迹，这些轨迹被汇集成一个连贯且易于使用的数据格式，以巨大的社区努力。（同时对这些数据集进行了一定的处理，详见原文）

OpenVLA Design Decisions（介绍了OPENVLA是为什么这么设计的）：

试验了多个VLM主干，发现 Prismatic最牛逼。
最初尝试多个 VLM 主干。除了 Prismatic [44]，还测试微调 IDEFICS-1 [82] 和 LLaVA [83] 以进行机器人动作预测。LLaVA 和 IDEFICS-1 在场景中只有一个目标的任务上表现相当，但 LLaVA 在涉及场景中多个目标并需要策略来操纵正确目标（即语言指令中指定的目标）任务中表现出更强的语言落地。具体而言，LLaVA 在 BridgeData V2 环境中的五项语言基础任务中，平均绝对成功率比 IDEFICS-1 高出 35%。经过微调的 Prismatic VLM 策略取得了进一步的改进，在简单的单目标任务和多目标语言落地任务中，绝对成功率比 LLaVA 策略高出约 10%。这种性能差异归因于融合SigLIP-DinoV2 主干所提供的改进空间推理能力。除了性能增强之外，Prismatic 还提供了模块化且易于使用的代码库，因此最终选择它作为 OpenVLA 模型的主干。
尝试了224 × 224px and 384 × 384px inputs分辨率的图像，发现都一样，就使用了224 × 224px。
我们发现在 VLA 训练期间微调视觉编码器对于良好的 VLA 性能至关重要。跟有利于场景理解和空间细节

实验：

Direct Evaluations on Multiple Robot Platforms：on two robot embodiments: the WidowX robot from the BridgeData V2 evaluations。

Data-Efficient Adaptation to New Robot Setups：我们还研究了 VLA 的有效微调策略，这是先前工作中没有探索的新贡献，跨越 7 个不同的操作任务，跨越来自对象拾取和放置的行为以清理桌子。

将VLA模型有效地微调到新任务和机器人设置在很大程度上还没有被探索，但这是它们广泛采用的关键。在本节中，我们研究了 OpenVLA 快速适应新机器人设置的能力。我们为 OpenVLA 模型测试了一个简单的微调方法：对所有模型参数进行完全微调，使用目标任务的 10-150 个演示的小型数据集。

使用的10–150 demonstrations of a target task，非常少！！！

这里的任务是跨机器人任务，我的 few-shot action learning 也可以使用这种任务设定！！！！

Parameter-Efficient Fine-Tuning：尝试了不同的参数高效微调的方式。

full finetuning
last layer only
frozen vision，sandwich fine-tuning unfreezes the vision encoder, token embedding matrix, and last layer
LoRA：all linear layers of the model.

最后，LoRA 在性能和训练内存消耗之间取得了最好的结果，优于“三明治微调”并匹配完整的微调性能，同时仅微调 1.4% 的参数。

结论：Secondly, improving the inference throughput of OpenVLA is critical to enable VLA control for high-frequency control setups such as ALOHA [88 ], which runs at 50Hz。This will also enable testing VLAs on more dexterous, bi-manual manipulation tasks than what we investigated in this work.

由于计算限制，许多 VLA 设计问题仍未得到充分探索：

基础 VLM 的大小对 VLA 性能的影响有多大。

机器人动作预测数据和互联网规模的视觉语言数据的联合训练是否大大提高了VLA的性能。

哪些视觉特征最适合 VLA 模型。

我们希望 OpenVLA 模型和代码库的发布将使社区能够共同调查这些问题。