原生3D场景的语言模型+物体级别交互精度：问答、定位等多个3D场景理解任务下取得SOTA性能！...

最新推荐文章于 2024-07-31 10:13:19 发布

PaperWeekly

最新推荐文章于 2024-07-31 10:13:19 发布

阅读量435

点赞数 8

文章标签： 3d 语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/135300533

版权

论文地址：

https://arxiv.org/abs/2312.08168

项目代码：

https://github.com/Chat-3D/Chat-3D-v2

介绍

多模态大语言模型（Multi-modal Large Language Models, MLLMs）以文本模态为基础，将其它各种模态对齐至语言模型的语义空间，从而实现多模态的理解和对话能力。在众多模态中，3D 视觉模态是不可或缺的一部分。

近来，越来越多的研究聚焦于 3D 大语言模型，旨在实现对 3D 物体以及复杂场景的理解和自由对话。尽管这些方法对于单一的 3D 物体已经展现出强大的理解能力，但在处理复杂的 3D 场景问题时仍然捉襟见肘。

先前的方法通常以 2D 视觉大模型为基础，通过引入多视角图片或者将3D模态映射至 2D 视觉语义空间，来实现对 3D 物体或场景的理解。然而，对于存在大量物体的 3D 场景，2D 视觉模型的架构及其从 2D 数据中预训练所学的知识并不足以支撑复杂的空间感知和推理要求，这在 3D 场景理解任务上显然不是最优解。

因此，为 3D 场景设计一个专门的模型架构和训练方案是条必经之路。在前置工作 Chat-3D 中，我们提出了一种 object-centric 的解决方案，考虑将对话聚焦于某个物体，并使用专门的模块去学习空间相对关系，从而实现了在 3D 场景中能够围绕某个特定的物体进行推理和问答。然而该架构最大的问题便是整个对话过程受限于单一物体，从而无法处理涉及多个物体的复杂场景问答。

在面对复杂 3D 场景时，现有模型的一大痛点是无法在对话中直接指代某个特定的物体。试想在日常交流中，人类可以直接用手指或者用一个眼神，即可指示其正在谈论的物体。而对于模型来说，则需要通过详尽的描述从而准确指示某个物体。一方面，模型给出的描述有时不太精确从而会引入额外的歧义，另一方面，这样描述物体的方式通常是难以处理涉及多个物体的复杂任务或对话的。

本文提出为场景中每个物体分配唯一的物体标识符，赋予了模型在对话中指代物体的能力，从而进一步解锁了其在 3D 场景下游任务中的强大性能。受益于 3D 实例分割的迅猛发展，我们首先借助强大的分割模型从场景中提取所有的物体实例。

接着，如图 1 所示，我们可以为场景中的物体分配 “objxx” 形式的标识符，于是在之后与语言模型进行问答的过程中，用户可以直接用标识符替代复杂的描述，而模型也能以标识符精确指代物体，同时这种精确的物体指代可以轻易地应用至后续的对话和任务中，而不会因繁杂的描述而不断引入歧义。

▲ 图1 在对话中使用物体标识符的例子

为了让 LLM 认识这些物体标识符，并且能在场景问答中自由使用

最低0.47元/天解锁文章

PaperWeekly

关注

8
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
原生3D场景的语言模型+物体级别交互精度：问答、定位等多个3D场景理解任务下取得SOTA性能！...

论文地址：https://arxiv.org/abs/2312.08168项目代码：https://github.com/Chat-3D/Chat-3D-v2介绍多模态大语言模型（Multi-modal Large Language Models, MLLMs）以文本模态为基础，将其它各种模态对齐至语言模型的语义空间，从而实现多模态的理解和对话能力。在众多模态中，3D 视觉模态是不可或缺的一部分。...
复制链接

扫一扫