突破感知极限！Open3DWorld：自动驾驶中的开放3D World

最新推荐文章于 2024-10-01 16:58:47 发布

自动驾驶之心

最新推荐文章于 2024-10-01 16:58:47 发布

阅读量503

点赞数

文章标签：自动驾驶 3d 人工智能机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247625244&idx=3&sn=6f7c48dd2493d25aeb4419f57b7f8cc2&chksm=cf367c181ce5b5d53d8f921e1390946a09160e3754e305d26d9a473dc104450d2bde5dfaf115&scene=126&sessionid=0

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『自动驾驶』技术交流群

编辑 | 自动驾驶之心

写在前面 & 笔者的个人理解

开放词汇感知的能力代表了自动驾驶系统的重大进步，促进了实时整合和解释各种文本输入。尽管对2D计算机视觉中的开放词汇任务进行了广泛的研究，但将这种方法应用于3D环境，特别是在大规模室外环境中，仍然相对不发达。本文提出了一种将激光雷达传感器获取的3D点云数据与文本信息相结合的新方法。主要重点是利用文本数据在自动驾驶环境中直接定位和识别目标。我们引入了一种将鸟瞰图（BEV）区域特征与文本特征融合的有效框架，从而使系统能够无缝适应新的文本输入，并增强开放词汇检测任务的鲁棒性。通过在新引入的NuScenes-T数据集上进行广泛实验，对所提出方法的有效性进行了严格评估，并在Lyft Level 5数据集上对其zero-shot性能进行了额外验证。这项研究通过利用多模态数据来增强3D环境中的开放词汇感知，从而突破了自主导航和感知的界限，为自动驾驶技术的进步做出了重大贡献。

本文介绍了一种新方法，该方法将激光雷达传感器的3D点云与文本数据相结合，以增强自动驾驶的感知能力。通过直接使用文本来定位和识别目标，具体来说提出了一种简单而有效的方法，将鸟瞰图（BEV）区域特征与文本特征融合在一起。本文的方法支持无缝适应新的文本输入，促进了3D环境中强大的开放词汇检测任务。方法命为“Open3DWorld”。本文的贡献有三方面：

支持使用激光雷达文本的3D开放词汇检测任务，使自动驾驶系统能够无缝适应新的文本输入，而无需进行大量的再培训。这种能力对于在多样化和动态的环境中运行至关重要。
提出了一种将3D点云与文本数据集成的新方法，增强了自动驾驶系统的感知能力。通过有效地将鸟瞰图（BEV）区域特征与文本特征融合，我们的方法能够直接从文本输入中准确定位和识别目标。
通过对NuScenes数据集（（称为NuScenes-T数据集）的扩展词汇表进行综合实验，证明了我们的方法的有效性，并在Lyft 5级数据集上验证了其zero-shot性能。

问题定义

方法论

NuScenes-T Dataset

TOD3Cap基于原始标注详细描述了NuScenes数据集中的每个目标。我们使用它来提取描述中的名词主题，经过过滤后，我们得到NuScenes中目标的名词描述，例如“汽车”、“盒子”、“垃圾”。所有名词的分布如图2所示。

通过这种方法，我们获得了比原始NuScenes数据集中更多的类别注释。自动驾驶场景中的一些常见挑战性案例，如“石头”和“盒子”，也包括在我们的新类别中。

Framework Overview

本文提出的方法的总体框架如图3所示，主要由三个部分组成。第一个是特征提取主干，它包括文本和点云特征提取器。第二个组件是鸟瞰图（BEV）特征和文本特征融合模块，它提取文本感知的BEV特征并获得更新的文本特征。最后，最后一个组件是多模态头，它由对比头和定位头组成。总之，我们的方法输出与文本输入相关的目标3D信息，包括目标的空间位置、大小、标题和其他细节。

Feature Extraction

本文的方法可以无缝地适应不同的文本和点云特征提取器。在我们的配置中，我们采用CLIP文本编码器作为文本骨干。对于点云提取器，我们提出了一个基于SECOND的新模块来获取鸟瞰图（BEV）特征，称为“OpenSECOND”。

并使用从外部信息中提取的所有单词。我们使用文本编码器来获取文本输入的嵌入，文本输入的嵌入式表示为，用于提示需要本地化和识别的内容。

对于点云，我们使用点云编码器来获取BEV特征，作为与文本输入的特征空间交互的特征空间。首先将3D空间划分为体素，将原始点云转换为二进制体素网格。随后，将3D稀疏卷积神经网络应用于体素网格进行特征表示。与前面提到的图像特征类似，Z轴 pooling生成了点云BEV特征图B。

BEV-Region Text Fusion Module

在融合多模态特征时，融合模块非常重要。在我们的Open3DWorld中，将其命名为BEV区域文本融合模块，因为它建立了每个BEV网格和每个文本之间的关系，并更新两者以对齐它们的特征空间。我们进行了广泛的实验来探索最适合我们任务的融合模块，并最终设计了图4所示的融合模块。

首先将鸟瞰图（BEV）特征展平，以获得展平的特征和文本特征。为了初步融合多模态特征，我们使用Max Sigmoid Attention Module通过使用文本特征来更新BEV区域特征，其格式为：

接下来，我们将更全面地融合BEV和文本特征。首先分别对BEV特征和文本特征进行self-att。考虑到大的BEV网格带来的计算负担，使用可变形的自关注来减少计算负担。接下来首先使用交叉注意力将文本特征聚合到鸟瞰图（BEV）特征中，然后使用交叉注意将BEV特征聚合到文本特征中。最后，我们使用FFN来调整特征维度。与Transformer中的编码器块一样，此融合过程执行N次。我们通过实验实现了N等于3，以实现效果和计算负担之间的平衡。

Contrastive Head and Localization Head

对于Contrastive head，使用几个conv来获得最终的BEV网格特征。接下来，我们使用以下公式计算每个BEV网格和文本之间的相似度，表示第i个BEV网格与第j个文本之间的相似性：

对于定位头，我们与传统的3D检测任务保持一致，并对所有信息进行回归，包括目标的空间位置、大小、航向和其他信息。我们的优势在于，基于与文本特征集成的边界元法特征来预测信息，因此更容易预测某个类别的属性。

Training and Evaluation

在获得BEV网格和文本之间的相似性图后，我们分两步获得GT热图。首先，我们将3D GT框投影到BEV特征图上，从而产生旋转框。例如，我们将一个3D盒子投影到BEV featmap中：

其次使用类似于YoloWorld的样本分配方法来获得H。最后使用交叉熵损失来监督训练，其格式为：

在评估过程中，在生成BEV网格和文本输入之间的相似性图（表示为S）后，我们应用预定义的分数阈值。如果BEV网格和相应文本之间的相似性得分超过此阈值，则网格被视为文本描述的目标的中心。然后通过提取相应网格的3D信息来识别和定位目标。最后，我们应用非最大抑制（NMS）来过滤和细化检测。

实验

实验和分析

通过外部描述信息扩展词汇表，我们在NuScenes-T数据集上训练Open3DWorld，使其能够完成与之前的3D检测模型类似的检测任务。由于我们的词汇表包括检测任务的封闭集合中的类别，因此我们可以计算出类似于标准3D检测任务中的定量指标。

我们的检测精度可与专业的3D检测模型相媲美，无需采用额外的训练技术来提高性能。这是有意的，因为我们的主要目标是开发一个能够无缝集成新文本信息的通用开放词汇模型。Nussenes-T数据集的测试结果如表1所示。

Zero-Shot Performance：为了评估零样本性能，在Lyft Level 5数据集上运行了Open3DWorld。结果2表明，融合模型利用BEV特征和文本特征，可以在理论上对齐以实现分类。众所周知，在点云目标检测领域，当我们使用在一个数据集上训练的模型在另一个数据集中进行测试时，模型会崩溃。我们的方法不需要训练，可以在Lyft Level 5数据集上获得初步结果，这表明在文本特征和BEV特征对齐后，泛化能力远优于传统的检测模型。

讨论

从实验中获得的结论强调了所提出的融合模型的优缺点。3D点云和文本数据的集成显著提高了检测精度；然而，目前开放词汇类别的收集在数量和质量上仍然有限。与基于图像的开放词汇检测领域现有的数万个类别相比，我们的数据集需要进一步扩展。此外不同类别的比例不平衡，这对模型的性能产生了负面影响，特别是在长尾类别上。

为了应对这些挑战，未来的工作将侧重于自动收集开放词汇表数据注释或采用无监督的方法来训练模型，使其能够在现实世界场景中管理更广泛的类别。此外，未来的研究将探索其他数据模式的集成，并开发更先进的融合技术，以进一步增强自动驾驶环境中的目标检测能力。

结论

本文介绍了一种在自动驾驶中进行3D开放词汇检测的新方法，该方法利用了激光雷达和文本数据的融合。我们的方法使智能驾驶汽车能够适应新的文本输入，而不需要进行广泛的再训练，从而增强了它们在多样化和动态环境中运行的能力。通过将3D点云与文本数据集成，我们的方法直接从文本查询中改进了目标定位和识别。我们的框架的有效性已经通过在NuScenes-T数据集上的广泛实验得到了证明，并在Lyft Level 5数据集上得到了验证，展示了它在现实世界场景中的鲁棒性和多功能性。通过推进多模态数据的集成，这项工作有助于开发更安全、更可靠、更高效的自动驾驶系统，为未来更具适应性和智能的感知模型铺平了道路。

参考

[1] Open 3D World in Autonomous Driving

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！重磅，自动驾驶之心科研论文辅导来啦，申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向，欢迎联系我们！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频