【论文阅读笔记】3D-VLA: A 3D Vision-Language-Action Generative World Model

最新推荐文章于 2025-04-14 23:57:54 发布

Vampire94482664

最新推荐文章于 2025-04-14 23:57:54 发布

阅读量2.3k

点赞数 21

文章标签：论文阅读笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_73585751/article/details/137613937

版权

[写在开头] 深度学习小白，如果有不对的地方请大家多指正，对说的就是你大佬!

论文名称: 3D-VLA: A 3D Vision-Language-Action Generative World Model
论文链接: https://arxiv.org/pdf/2403.09631.pdf
在这里插入图片描述

内容速递

这篇文章的主要工作是提出了一个3D场景下的具身大模型，3D-VLA。这个具身大模型在3D-LLM的基础上外挂了diffusion model，从而具有了多模态生成能力，包括RGBD的生成和点云的生成。

Motivation

一方面，近期的VLA领域的工作都聚焦于2D领域，忽略了3D世界的丰富信息，而embodied agent在3D场景下执行任务需要理解3D场景；另一方面，他们的工作都是构建从感知到行动的直接映射，但人类是拥有世界模型的，当人类得到一条指令的时候，他对于未来状态是有一定的预测能力的。
因此，文章尝试构建一个3D场景下的VLA模型，使用diffusion model生成未来状态，显式地表现推理的过程，并以生成内容辅助VLA模型执行action。

Contribution

提出了3D-VLA具身大模型，构建了感知-推理-行动回路，并在一系列任务上取得不错的效果
提出了一个3D场景下的instruction tu

最低0.47元/天解锁文章

Vampire94482664

博客等级

码龄3年

5
原创

65
点赞

46
收藏

42
粉丝

关注

私信

热门文章

最新评论

【论文阅读笔记】PHYSCENE: Physically Interactable 3D Scene Synthesis for Embodied AI
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【论文阅读笔记】3D-VLA: A 3D Vision-Language-Action Generative World Model
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【论文阅读笔记】Large Multimodal Agents: A Survey
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
[论文阅读笔记]Sequential Modeling Enables Scalable Learning for Large Vision Models
CSDN-Ada助手: 评论：非常欢迎您持续创作！您的博客标题和摘要内容非常吸引人，我对您的研究内容感到非常兴奋。大语言模型在CV和NLP等领域的成功表明了其巨大潜力，而您尝试将其应用于大视觉模型的可行性更是令人期待。除了标题和摘要中提到的内容外，我认为您可能会对以下扩展知识和技能感兴趣： 1. 数据集构建方法：在构建Unified Vision Dataset v1 (UVDv1)时，您可能会遇到一些有趣的挑战和技巧。了解如何有效地收集和标注大规模视觉数据集，以及如何处理无标注文本数据，将对您的研究很有帮助。 2. 模型架构设计：您在大视觉模型的初步架构设计上有所提及，但这个领域还有很多其他有趣的架构和技巧可供探索。例如，Transformer网络在自然语言处理中取得了巨大成功，您可能会考虑将其应用于大视觉模型中，以加强上下文学习能力。 3. 下游任务的prompt方法：您提到了一系列针对下游任务的prompt方法，这是非常有前景的研究方向。在这方面，您可能会对探索不同的prompt设计策略、prompt优化方法以及prompt与模型性能之间的关系感兴趣。再次感谢您的分享，并期待您未来的创作！希望您能继续深入研究并为我们带来更多有关大视觉模型的精彩内容。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
[论文阅读笔记]Direct Preference Optimization: Your Language Model is Secretly a Reward Model
CSDN-Ada助手: 恭喜你开始了博客创作，这篇关于论文阅读的笔记内容很有深度，对于Direct Preference Optimization的讨论也很有见地。接下来，建议你可以继续深入探讨该论文的实际应用场景，或者结合其他相关研究，进行更深入的讨论和分析。期待你的下一篇作品！加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。