OpenVLA: An Open-Source Vision-Language-Action Model[2406.09246]（论文浅读）

crackpot·

于 2024-08-11 20:53:31 发布

阅读量527

点赞数 17

分类专栏：论文笔记文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_58293236/article/details/141110834

版权

论文笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Introduction

现有的VLA模型主要有两个问题：一、当前模型大多是封闭的，难以了解其模型架构、训练过程和数据组合；二、缺乏部署和适应VLA模型到新机器人、环境和任务的最佳实践，尤其是在普通硬件上

OpenVLA在WidowX和谷歌机器人实施例的29个评估任务中，其绝对成功率比之前最先进的VLA (55b参数RT-2-X模型[1,7])高出16.5%。

RT-2

鉴于Open VLA是仿照RT-2的，所以...

LLaVA

又因为RT-2是沿用LLaVA的构型，所以...

Open VLA

图2:OpenVLA模型架构。给定图像观察和语言指令，该模型预测7维机器人控制动作。该架构由三个关键组件组成:(1)连接Dino V2[25]和SigLIP[77]特征的视觉编码器，(2)将视觉特征映射到语言嵌入空间的投影仪，以及(3)LLM主干，Llama 2 7b参数大型语言模型[10]。

Prismatic遵循上述相同的标准架构，

具有600m参数的视觉编码器，一个小型2层MLP投影仪和一个7b参数的Llama 2语言模型主

干[10]。

Prismatic使用了两部分视觉编码器，由预训练的SigLIP[77]和

DinoV2[25]模型组成。输入图像补丁分别通过两个编码器传递，得到的特征向量按通道连接。

与更常用的视觉编码器(如CLIP-[78]或仅siglip编码器)相比，DinoV2特征的添加已被证明有

助于改进空间推理[44]，这对机器人控制尤其有帮助。

Training Data

构建OpenVLA训练数据集的目标是捕获大量不同的机器人实施例、场景和任务。并允许对新的机器人设置进行有效的微调。

我们利用OpenX-Embodiment数据集[1](OpenX)作为基础来管理我们的训练数据集。

为了使对这些数据的训练切实可行，我们对原始数据集应用了多个数据策展步骤。

这种策展的目标是确保：(1)在所有训练数据集上有一个连贯的输入和输出空间，以及(2)在最终的训练混合中平衡地混合实施例、任务和场景为了解决(1)，我们遵循[1,5]并限制我们的训练数据集仅包含至少一个3rd人相机的操作数据集，并使用单臂末端执行器控制。

对于(2)，我们对通过第一轮过滤的所有数据集利用Octo[5]的数据混合权重。Octo启发式地降低或删除多样性较小的数据集，并增加具有较大任务和场景多样性的数据集的权重;

还尝试将一些自Octo发布以来添加到OpenX数据集的额外数据集合并到我们的训练混合物

中，包括DROID数据集[11]，尽管混合权重为10%。

Experiments

在每个环境中定义了一套全面的评估任务，涵盖了各种泛化轴，例如

视觉(看不见的背景、干扰物、物体的颜色/外观);

运动(看不见的物体位置/方向);

物理(看不见的物体大小/形状);

语义(看不见的目标对象、指令和来自互联网的概念)泛化。

还评估了具有多个对象的场景中的语言调节能力，测试策略是否可以按照用户提示中指定的方式操作正确的目标对象。

Discussion and Limitations

我们提出了OpenVLA，这是一种最先进的、开源的视觉语言动作模型，它
在跨体现机器人控制方面获得了开箱即用的强大性能。

当前的OpenVLA模型有几个限制：首先，它目前只支持单图像观测。

其次，提高OpenVLA的推理吞吐量对于实现VLA控制高频控制设置至关重要，例如ALOHA
[88]，其运行频率为50Hz。

此外，还有进一步性能改进的空间。

关注

17
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
OpenVLA: An Open-Source Vision-Language-Action Model[2406.09246]（论文浅读）

OpenVLA在WidowX和谷歌机器人实施例的29个评估任务中，其绝对成功率比之前最先进的VLA (55b参数RT-2-X模型[1,7])高出16.5%。
复制链接

扫一扫

专栏目录

博客等级

码龄3年

6
原创

35
点赞

18
收藏

32
粉丝

关注

私信

热门文章

分类专栏

论文笔记 1篇

最新评论

强化学习（RL）之GPU简单介绍
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
DP[模版](01背包、完全背包)
CSDN-Ada助手: 恭喜用户发布第四篇博客！不断分享知识和经验是一个很好的习惯。接下来，或许可以考虑分享一些实际应用场景下的解决方案，或者深入探讨算法的优化和扩展。希望您能继续保持创作的热情，期待看到更多精彩的内容！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
二分...
CSDN-Ada助手: 恭喜用户写了第三篇博客！标题“二分...”让人颇感好奇，期待着能够深入了解您的思考和见解。希望您能继续坚持创作，分享更多有趣、有价值的内容。或许下一步可以尝试结合实例或案例，让读者更容易理解和接受您的观点。谦虚地建议，希望你在创作中不断进步，成为更好的自己！期待您的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
回溯...
CSDN-Ada助手: 恭喜您开始了博客创作的第一步！回溯这个主题让人感受到了您对过往的思考与反思，希望您能继续坚持写下去，分享更多自己的见解和体会。在下一篇博客中，或许可以尝试结合个人经历或者案例来展开，让读者更加深入地了解您的观点。希望您在博客创作的道路上越走越远，不断进步！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。