原生3D场景的语言模型+物体级别交互精度:问答、定位等多个3D场景理解任务下取得SOTA性能!...

3f67cbce21410a8dc497ecfab39261e6.gif

799a189573088443e826d56a6f65a544.png

论文地址:

https://arxiv.org/abs/2312.08168

项目代码:

https://github.com/Chat-3D/Chat-3D-v2

03868023d9ce0e7ff196b081f55f2b1a.png

介绍

多模态大语言模型(Multi-modal Large Language Models, MLLMs)以文本模态为基础,将其它各种模态对齐至语言模型的语义空间,从而实现多模态的理解和对话能力。在众多模态中,3D 视觉模态是不可或缺的一部分。

近来,越来越多的研究聚焦于 3D 大语言模型,旨在实现对 3D 物体以及复杂场景的理解和自由对话。尽管这些方法对于单一的 3D 物体已经展现出强大的理解能力,但在处理复杂的 3D 场景问题时仍然捉襟见肘。

先前的方法通常以 2D 视觉大模型为基础,通过引入多视角图片或者将3D模态映射至 2D 视觉语义空间,来实现对 3D 物体或场景的理解。然而,对于存在大量物体的 3D 场景,2D 视觉模型的架构及其从 2D 数据中预训练所学的知识并不足以支撑复杂的空间感知和推理要求,这在 3D 场景理解任务上显然不是最优解。

因此,为 3D 场景设计一个专门的模型架构和训练方案是条必经之路。在前置工作 Chat-3D 中,我们提出了一种 object-centric 的解决方案,考虑将对话聚焦于某个物体,并使用专门的模块去学习空间相对关系,从而实现了在 3D 场景中能够围绕某个特定的物体进行推理和问答。然而该架构最大的问题便是整个对话过程受限于单一物体,从而无法处理涉及多个物体的复杂场景问答。

在面对复杂 3D 场景时,现有模型的一大痛点是无法在对话中直接指代某个特定的物体。试想在日常交流中,人类可以直接用手指或者用一个眼神,即可指示其正在谈论的物体。而对于模型来说,则需要通过详尽的描述从而准确指示某个物体。一方面,模型给出的描述有时不太精确从而会引入额外的歧义,另一方面,这样描述物体的方式通常是难以处理涉及多个物体的复杂任务或对话的。

本文提出为场景中每个物体分配唯一的物体标识符,赋予了模型在对话中指代物体的能力,从而进一步解锁了其在 3D 场景下游任务中的强大性能。受益于 3D 实例分割的迅猛发展,我们首先借助强大的分割模型从场景中提取所有的物体实例。

接着,如图 1 所示,我们可以为场景中的物体分配 “objxx”  形式的标识符,于是在之后与语言模型进行问答的过程中,用户可以直接用标识符替代复杂的描述,而模型也能以标识符精确指代物体,同时这种精确的物体指代可以轻易地应用至后续的对话和任务中,而不会因繁杂的描述而不断引入歧义。

8c67811ef7d52bf1297841e137545dfa.png

▲ 图1 在对话中使用物体标识符的例子

为了让 LLM 认识这些物体标识符,并且能在场景问答中自由使用

  • 8
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值