【论文阅读】SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding

最新推荐文章于 2025-06-03 20:09:09 发布

王知为

最新推荐文章于 2025-06-03 20:09:09 发布

阅读量561

点赞数 8

文章标签：论文阅读 3d

本文链接：https://blog.csdn.net/oneway3124/article/details/135733390

版权

Jia, B., Chen, Y., Yu, H., Wang, Y., Niu, X., Liu, T., Li, Q., & Huang, S. (2024). SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding. In arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2401.09340

SceneVerse: 为基于场景理解的3D视觉语言学习提供规模化支持

3D视觉语言对齐，侧重于将语言与3D物理环境相一致，是体验型智能体发展的基石。与2D领域的最新进展相比，将语言与3D场景相结合面临着几个重要挑战：（i）3D场景的固有复杂性，由于多样的物体配置、它们丰富的属性和复杂的关系；（ii）支持基于场景的学习的配对3D视觉语言数据的稀缺性；以及（iii）缺乏一个统一的学习框架，用于从基于场景的3D数据中提炼知识。在这项工作中，我们旨在通过系统地提升室内环境中的3D视觉语言学习来解决这三个主要挑战。我们引入了第一个百万规模的3D视觉语言数据集，SceneVerse，包括约68,000个3D室内场景，由人工标注和可扩展的基于场景图的生成方法产生的250万个视觉语言对组成。我们展示了这种扩展使得可以使用统一的预训练框架，名为场景基础预训练（GPS），用于3D视觉语言学习。通过广泛的实验，我们展示了GPS在所有现有的3D视觉对齐基准上取得的最先进性能。SceneVerse和GPS的广泛潜力通过在具有挑战性的3D视觉语言任务中进行零次迁移实验证明。项目网站：https://scene-verse.github.io。

在这里插入图片描述
图1. SCENEVERSE概览。这是一个规模达百万级的3D视觉语言数据集，包括超过68,000个不同的3D室内场景和250万对齐的场景语言对，以场景标题、物体标题和物体引用的形式呈现。