清华&华为！NuGrounding：多模态大模型加持，首个面向自动驾驶的环视3D视觉定位~

最新推荐文章于 2025-05-13 22:39:20 发布

自动驾驶之心

最新推荐文章于 2025-05-13 22:39:20 发布

阅读量808

点赞数 10

文章标签：自动驾驶 3d 人工智能机器学习

本文链接：https://blog.csdn.net/CV_Autobot/article/details/147056697

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享清华联合华为诺亚方舟实验室最新的工作！NuGrounding：面向自动驾驶的环视3D视觉定位框架！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『多模态大模型』技术交流群

论文作者 | Fuhao Li等

编辑 | 自动驾驶之心

写在前面

多视角3D视觉定位对于自动驾驶车辆理解自然语言并定位复杂环境中的目标物体至关重要。然而，现有的数据集和方法受限于粗粒度的语言指令，且未能充分集成3D几何推理与语言理解能力。为此，我们提出了NuGrounding，这是首个面向自动驾驶的多视角3D视觉定位大规模基准数据集。为了构建NuGrounding，我们提出了一种层次化构建（HoG）方法，生成分层的多级指令，确保覆盖人类语言模式。为了解决这一挑战性数据集，我们提出了一种新颖的范式，巧妙地将多模态大语言模型的指令理解能力与专有检测模型的精确定位能力结合起来。我们的方法引入了两个解耦的任务token和一个上下文query，用以聚合3D几何信息和语义指令，随后通过融合解码器精炼空间-语义特征，从而实现精确定位。实验表明我们的方法在精度和召回率上分别达到了0.59和0.64，相较于适配后的主流3D场景理解模型，分别提高了50.8%和54.7%。

领域介绍

多视角3D视觉定位在自动驾驶车辆通过自然语言指令理解驾驶环境方面发挥着重要的作用。这一过程涉及将多视角图像和文本指令分析集成到统一的3D物体定位框架中，架起了人类意图与机器感知之间的桥梁。通过促进以人为中心的场景理解，它为更安全、更直观的人车交互开辟了道路。

尽管基于语言的自动驾驶系统已经取得了显著进展，现有的数据集由于指令过于简化、规模有限以及任务粗粒度，无法满足多视角3D视觉定位的需求。如表1所示，先前的视觉定位数据集仅关注2D像素级的物体定位，缺乏3D几何表示；而其他数据集则集中于单视角图像，忽视了整体的多视角场景理解。此外，这些数据集在指令的多样性和数量上也存在不足，无法涵盖广泛的场景。最近的研究主要解决了场景级任务（如视觉问答）或单物体描述任务（如稠密标注），但无法应对实例级的多物体定位任务。

为填补这些空白，我们引入了NuGrounding数据集，这是首个面向自动驾驶的多视角3D视觉定位大规模基准数据集。与先前的工作不同，NuGrounding支持多物体、实例级定位，并在文本指令的复杂性和数量上达到平衡。为构建该数据集，我们通过自动标注和少量人工验证，从NuScenes中收集了物体属性。接着，我们提出了层次化构建（HoG）方法，用以生成分层的多级文本指令。

多视角3D视觉定位任务需要同时具备复杂的人类指令理解和精细的场景理解。如图1(a)所示，先前的研究通常将多视角图像编码为BEV特征，并将3D空间推理能力集成到多模态大语言模型中。然而，这些方法主要关注于生成文本，限制了其在精准定位物体的效果。如图1(b)所示，最近的方法尝试通过3Dquery将LLM的隐藏层向量解码为3D框回归任务。然而，这些3Dquery位于语义向量空间中，缺乏细粒度的3D几何细节，从而阻碍了精确的3D定位。

为此，我们提出了一种多视角3D视觉定位框架，这是一种新颖的范式，巧妙地将多模态大模型的指令理解能力与专有检测模型的精准物体定位能力结合起来，如图1(c)所示。具体来说，我们首先采用基于BEV的检测器提取稠密的BEV特征，并生成带有3D几何先验的实例级物体query。其次，我们将单一任务token解耦为文本提示token和下游嵌入token，帮助我们预定义的上下文query聚合3D几何信息和语义指令。最后，我们引入了融合解码器，将语义信息与3D空间细节进行整合，从而预测物体边界框。该框架实现了复杂人类指令理解与多视角场景感知来进行精确的物体定位。

总体而言，我们的贡献可以总结为以下几点：

我们引入了NuGrounding数据集，这是首个面向自动驾驶的多视角3D视觉定位大规模数据集。为确保数据集的多样性、可扩展性和泛化能力，我们提出了层次化构建（HoG）方法来构建NuGrounding。
我们提出了多视角3D视觉定位框架，这是一种新颖的范式，巧妙地将多模态大模型的指令理解能力与专有检测模型的精确物体定位能力结合起来。
我们将现有的主流方法适配到NuGrounding数据集上并进行了评估，建立了一个全面的基准。实验结果表明，我们的方法显著超越了改编的基线，精度提高了50.8%，召回率提高了54.7%。

NuGrounding数据集

现有的驾驶视觉理解数据集由于提示过于简化、规模有限以及任务粗粒度，不适合用于多视角3D视觉定位。为了解决这些问题，我们提出了首个多视角3D视觉定位数据集NuGrounding，该数据集基于NuScenes构建。此外，我们还提出了层次化构建（HoG）方法，用于生成分层的多级文本提示。具体如图2所示，我们首先为每个物体注释多种的常见属性。然后，将这些属性填入HoG方法中，以获得文本指令。

物体属性采集

在用自然语言描述特定物体时，人们通常关注物体的固有属性：类别、外观、运动状态和相对于自车的空间关系。因此，我们对这四种属性类型进行了实例级标注。类别：我们采用了NuScenes中十个常见的物体类别。外观：NuPrompt手动注释了视频序列中的颜色信息，TOD3Cap则使用预训练的标注模型进行自动化的颜色提取。我们将这两个数据集中的颜色标注合并，并对不一致的标注进行细致的人工验证。运动属性：我们通过计算帧间位移来估计物体的速度，并使用0.3 m/s的阈值将运动状态分为移动和静止。空间关系：我们遵循NuScenesQA的做法，定义了六种关系，分别对应六个相机视角。每种关系在鸟瞰图平面内涵盖一个60°的视场角，以确保唯一性。

文本分层构建

在采集了实例级属性之后，我们结合这些属性，通过提出的层次化构建方法（HoG）生成场景级文本提示。HoG方法不仅能够涵盖各种人类指令，还能有效防止归纳偏差，如下两点所述。

首先，人们往往通过共享属性描述一组物体（我周围的行人），但通过独特的属性组合来定位特定物体（我左前方正在移动的红色轿车）。属性组合的数量与指示的特定性和提示的复杂性相关。这启发了我们采用分层提示生成策略，通过控制堆叠属性的数量，生成多个难度级别的提示，从而更全面地覆盖人类描述模式。

其次，若没有层次结构地结合所有四种属性类型，可能会导致归纳偏差。例如，在只有一辆车的场景中，“我左前方正在移动的红色轿车”和“那辆车”指的是同一物体。如果在大量此类样本上进行训练，可能会引导模型只关注类别属性，而忽视其他属性，从而导致偏差学习。这强调了属性解耦和多层次层次化构建的重要性。

具体而言，我们通过选择不同的属性组合生成了种模板。选择个属性类型的模板称为 -级提示。然后，我们遍历当前场景中物体的所有选择属性，并将它们填入模板中，生成语义表达，如图2所示。

数据统计

NuGrounding从NuScenes中的850个视频中提取了34,149个关键帧，生成了220万个文本提示（每帧63.7个提示）。数据集分为180万个用于训练的提示和40万个用于测试的提示。值得注意的是，NuGrounding通过分层生成具有不同属性组合的提示，以平衡难度级别。如图3(b)所示，每个层的子集保持大致相等的比例，提高泛化能力并防止模型采用文本捷径。此外，NuGrounding支持每个提示多物体引用，每个提示平均引用3.7个物体，如图3(c)所示。

方法论

在自动驾驶场景中的3D视觉定位任务要求具备以下综合能力：多视角场景感知、复杂人类指令理解、精确的3D物体定位。然而，现有的3D检测模型缺乏理解人类指令的能力，而多模态大语言模型在物体定位的精度上存在不足。为此，本文提出了一种新颖的框架，将多模态大模型的指令理解能力与专业检测模型的精确物体定位能力相结合。该框架能够同时实现复杂的人类指令理解和准确的物体定位。

整体结构

我们方法的架构如图4所示。首先，在基于BEV的检测器中，采用了专用的检测编码器，从多视角图像中提取稠密的BEV特征，随后通过基于query的检测解码器，利用提取的特征生成稀疏的实例级物体query。其次，在上下文query聚合器中，物体query作为稀疏的场景表示，连同文本指令一起输入到多模态大语言模型中。此外，我们引入了两个独立的任务token与一个可学习的上下文query。在生成文本响应时，MLLM依据任务token将3D场景信息和文本指令聚合到该上下文query中。最后，在融合解码器中，物体query根据其与上下文query的相关性进行过滤，以消除语义无关的实例级噪声。选定的query通过与所有物体query交互增强其空间信息，并通过与上下文query交互整合语义信息，最终生成融合后的query。最终，这些融合query通过专用目标解码器进行解码。

基于BEV的检测器

根据多视角三维检测方法，基于BEV的检测器通过构建BEV特征提取多视角图像信息，并将其转化为实例级的物体query。

检测编码器。 首先，将多视角图像输入到图像主干网络中，以提取图像特征。随后，根据相机的投影矩阵，将图像特征转换到网格状的BEV平面，从而构建BEV特征。

检测解码器。 我们初始化一组可学习的三维锚点作为物体query ，其中是预定义的物体query数量。将这些稀疏的输入到Transformer架构中，以聚合有用的稠密BEV信息。

上下文query聚合器

在获取到物体query后，我们将其视为稀疏场景信息，并与人类指令一起输入到多模态大语言模型中。随后，上下文query无缝地插入到MLLM推理过程中，以聚合三维场景信息和文本指令信息。最终，MLLM输出文本响应和聚合后的上下文query。

多模态输入。 当前的多模态大模型和基于LLM的自动驾驶模型使用从图像中提取的二维特征作为视觉输入，而没有结合三维几何先验。与之不同，我们将稀疏物体query 作为三维场景的表示输入到MLLM中。为了弥合三维场景信息与广泛预训练的二维MLLM之间的固有差距，我们采用了一个两层MLP 来对齐三维特征与LLM。对齐后的三维特征与token化的文本特征结合，形成完整的多模态输入。

此外，与使用稠密的BEV特征的方法不同，稀疏物体query在直观上与LLM输入模式更加兼容。物体query集中的每个token表示3D场景中一个感兴趣物体的独立表示，并且这些token之间具有内在的空间关联性。

上下文query。 该步骤旨在聚合多模态输入并提炼其有效信息。大多数基于LLM的模型引入任务token机制进行多模态输入的聚合。然而，这些方法中的单一任务token既负责下游任务解码，也负责文本答案的生成。这种权衡可能会阻碍多模态信息的聚合。因此，我们将单一任务token解耦为一个任务符号token，用于标示下一个token将用于聚合；以及一个下游占位符token，其词嵌入将被预定义的上下文query所替代，用于聚合多模态信息。

具体而言，我们首先初始化一个可学习的参数作为上下文query ，其中为LLM最后一层隐藏层的维度。接下来，我们向原有的LLM词汇表中添加两个新token，[DET]和[EMB]。在LLM响应生成过程中，[EMB]总是紧随[DET]之后。 [DET]作为任务符号，标示随后的token将用于多模态信息的聚合。随后生成的[EMB]被排除在计算文本生成交叉熵损失之外，并且其对应的词嵌入被预定义的上下文query所替代，进入接下来的自回归过程。因此，上下文query在自回归机制中发挥作用，有效地聚合三维场景和文本语义信息。该过程公式如下：

文本引导推理。 在上下文query聚合多模态信息的同时，MLLM同时生成文本响应。大多数基于LLM的方法设计了非常简单的响应格式。然而，这些方法忽略了文本响应在引导上下文query进行多模态输入思考和理解方面的潜力。实际上，在LLM的自回归过程中，上下文query不仅与多模态输入交互，还与所有在[DET]之前生成的响应token交互。我们发现，文本响应中的场景和目标物体描述显著影响聚合效果。我们认为，详细的文本响应使得MLLM在推理过程中有更多时间和更多响应token进行合理的思考。这种思考过程增加了模型的复杂性和表示能力，使得上下文query能够理解整个多模态信息，并聚合更多有用的信息。因此，我们在响应中提供了详细的目标物体描述。

融合解码器

在自回归过程期间，上下文query被映射到语义嵌入空间，作为大语言模型最后一层的输出。因此，聚合后的上下文query 在语义和场景理解方面非常丰富，但缺乏三维空间信息和细粒度的几何细节。相反，从基于鸟瞰图的检测器中提取的物体query 拥有丰富的三维几何先验，但缺乏语义指令引导。因此，设计了一个融合解码器，用于将来自的语义信息与来自的三维几何信息融合，从而生成融合query ，并随后解码以预测三维边界框。

query筛选器。 query筛选器的目的是筛选出最具语义相关性的物体query ，从而消除不相关的物体噪声。大多数选择方法使用多个离散的文本token来计算token级别的相似度，这可能导致集中于语义无关的文本token，从而选择语义上模糊的物体。相比之下，我们将整个语义信息整合为一个单一的上下文query，以计算语义级别的相似度。这种方法在选择过程中集中关注全局语义信息，从而避免了选择过程中可能出现的语义不一致，确保了深层次的语义一致性。

具体而言，我们首先对上下文query和物体query分别应用两个多层MLP，将它们对齐到一个统一的空间。然后，我们计算它们之间的余弦相似度，得到一个相似度矩阵，用以衡量语义相关性。最后，基于语义相似度，我们选择前k个物体query。该过程公式如下：

query融合器。 query融合模块采用变换器架构进行跨模态query融合。具体而言，选定的物体query 会依次输入到自注意力层、物体跨注意力层和语义跨注意力层。在物体跨注意力层中，与原始稀疏场景表示进行交互，以增强它们的相对空间位置。在语义跨注意力层中，从中增强其语义信息。最后，融合后的query用于预测三维边界框。

试验阶段

主流方法比较

由于目前尚无针对多视角三维视觉定位任务和数据集的现有方法，我们将基于MLLM的三维场景理解方法进行适配，即ELM、NuPrompt和OmniDrive，并在我们提出的NuGrounding数据集上进行实验。如表2所示，采用小型骨干网络V2-99的我们提出的方法在性能上超过了所有先前的主流方法。此外，为了提高效率，我们采用了ViT-B，而非更大规模的ViT-L作为骨干网络，尽管如此，我们的方法在四个级别的平均精度上仍达到了0.59的精度、0.64的召回率、0.40的mAP和0.48的NDS，分别领先于NuPrompt的0.30、0.35、0.29和0.26。综上所述，得益于我们提出的三维视觉定位框架和精心设计的模块，我们的方法优于其他同类方法。

消融实验

范式设计。 为了评估框架各组件的影响，我们采用文本推理方法，包括数字、类别和关系作为基线方法。如表3(a)所示，该方法奠定了坚实的基础，达到了0.387 mAP和0.445 NDS。在引入上下文query后，mAP和NDS指标分别提高了0.056和0.042，这表明解耦的任务token和上下文token能够更有效地聚合多模态信息。此外，我们的query选择器也取得了一些效果。

场景表示。 为了与我们的物体query输入进行对比，我们采用了盲输入和bev特征作为视觉输入。表3(b)中的结果清晰地显示了物体query输入的优势。这是因为物体query能够从3D检测器中捕获3D几何先验信息。显然，盲输入结果表明视觉嵌入与LLM token之间的交互是必要的。

文本推理。 我们进行了消融研究，以评估文本推理的影响。如表3(c)所示，随着token长度和细节信息的增加，效果不断改善。这些结果表明，详细的文本响应使得MLLM能够花费更多时间并使用更多响应token进行推理，从而提高了模型的复杂性和表示能力。

query选择器。 我们将物体query的数量从32个变动到900个，以研究其对性能的影响。如表3(d)所示，256个query优于900个query，这表明我们选择了最具语义相关性的物体query，并减少了无关的目标噪声。然而，32个和64个query的结果表明，合理的query数量至关重要。

可视化比较

如图5所示，本文提供了与现有相关工作的可视化对比。这些模型在处理显示的车辆时存在假阳性和假阴性的问题。特别是，NuPrompt错过了红车后面的银色车辆，而OmniDrive未能检测到红车前方的黑色车辆。值得注意的是，我们的方法不仅生成了准确的文本响应，还产生了精确且高质量的3D定位结果。

参考

[1] NuGrounding: A Multi-View 3D Visual Grounding Framework in Autonomous Driving.

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com