ECCV24自动驾驶3D感知新作：如何仅用‘点’让自动驾驶汽车全面感知世界？

深蓝学院

已于 2024-10-05 12:03:23 修改

阅读量964

点赞数 20

文章标签：自动驾驶感知顶会顶刊

于 2024-10-03 12:46:45 首次发布

本文链接：https://blog.csdn.net/soaring_casia/article/details/142690714

版权

导读：

本文引入一个可以全面理解3D场景的方法，通过将点查询与2D图像特征交互而建立的新型基于点的占用表示。提出一个灵活的框架，允许在任何感兴趣的区域进行推理，而无需重新训练或牺牲准确性，并预测场景以外的区域。©️【深蓝AI】编译

1. 摘要

在本文中，作者探索了一种用于从多视角图像中进行3D占用预测的新型点表示，称为“占用作为点集”。现有的基于相机的方法倾向于利用密集的基于体积的表示来预测整个场景的占用，这使得很难将注意力集中在特殊区域或感知范围之外的区域。相比之下，本文提出了兴趣点（PoI）来表示场景，并提出了OSP，一种基于点的3D占用预测的新框架。由于基于点的表示固有的灵活性，OSP与现有方法相比实现了强大的性能，并且在训练和推理适应性方面表现出色。它超越了传统的感知界限，可以与基于体积的方法无缝集成，以显着提高其有效性。在Occ3D-nuScenes占用基准上的实验表明OSP具有强大的性能和灵活性。

2. 引言

图1｜基于体积的方法和本文方法的比较©️【深蓝AI】编译

整体的3D场景理解对于自动驾驶系统至关重要，直接影响后续任务的效率和准确性。考虑到摄像头相对于其他传感器的成本效益和易于部署，开发基于视觉的 3D场景理解方法已成为一项重大且广泛研究的挑战。

为了应对这一挑战，人们提出了3D语义场景补全（SSC），并对其进行了广泛研究，以便从有限的观察中联合推断场景的几何和语义信息。SSC任务要求模型准确预测可见位置并补全不可见位置的信息。最近，Occ3D引入了一项名为3D占用预测的新任务定义。此任务与SSC的主要区别在于3D占用预测仅关注可见区域，并且针对动态场景进行了量身定制。

现有的3D占用预测方法大多基于密集BEV方法，例如BEVFormer、BEVDet。这些方法将BEV编码器与占用头集成在一起以生成输出并增强BEV感知能力以获得更好的结果。然而，它们有一些共同的缺点：

1）均匀采样： 基于BEV的方法无法区分同一场景内的不同区域，这会导致粗采样并阻碍动态或多分辨率采样能力。

2）推理灵活性有限： 在推理过程中，这些方法只能一次处理整个场景。它们缺乏根据不同的下游任务或特定的实际需求推断场景不同部分的能力。

这些限制凸显了对更灵活的3D占用预测方法的需求，该方法可以处理复杂场景，同时适应不同的推理要求。在本文中，作者提出了一种新的基于点的3D占用预测表示。本文没有像现有的基于体积的方法那样将场景划分为均匀的网格，而是提出了兴趣点（PoI）将场景视为点的集合，有助于在训练和推理阶段灵活地对场景进行采样。图1比较了基于体积和基于点的表示。与基于体积的表示相比，本文的基于点的表示具有以下优点：

1）它可以接受任何规模和位置的输入来进行占用预测，包括手动设计和自适应设计的输入，提供灵活性；

2）它可以特别关注某些区域，而不是平等对待所有区域，从而增强模型的感知能力。

本文引入了“占用点集”（OSP），这是一种新颖且灵活的基于点的框架，它建立在兴趣点（PoI）的基本概念之上。OSP在3D占用预测方面表现出色，由图像主干、3D定位编码器和解码器组成，如图2所示。本文方法的核心是创新使用PoI，作者将其分为三种不同的类型以满足不同的需求，从而显著增强了本文模型性能的各个方面。这些PoI的详细描述将在第3节中提供。值得注意的是，除了本文最初提出的三种类型之外，可以根据需要设计PoI。

3. 相关工作

3.1 3D占据预测

3D占用预测是Occ3D最近定义的一个概念，它与机器人技术中使用的占用网格映射（OGM）有着显著的相似之处。此任务旨在根据一系列传感器输入预测场景中每个体素网格的状态。Occ3D利用Waymo开放数据集和nuScenes数据集建立了两个基准来促进这一目标。在基于视觉的3D占用预测中，Occ3D实现了摄像头可见性估计并创建了可见性掩码以确保评估仅限于可见区域。它还在其基准上评估了各种SSC方法，包括MonoScene、TPVFormer、BEVDet、OccFormer和BEVFormer。

3.2 3D场景语义补全

场景语义补全（SSC）是一项与3D占用预测密切相关的任务。SSC的概念最初在SSCNet中提出，重点是根据场景的部分可见区域预测场景的综合语义信息。近年来，SSC的研究得到了显著扩展，尤其是在小型室内场景的背景下。近年来，针对广阔室外环境的场景语义补全（SSC）研究势头强劲，尤其是在引入SemanticKITTI数据集之后。值得注意的是，MonoScene成为第一种应用基于单目纯视觉的SSC的方法。与此并行的是，OccDepth通过结合来自立体输入的深度数据增强了2D到3D特征转换。TPVFormer反对单平面建模在捕捉复杂细节方面的局限性，因此它采用了三视角（TPV）方法，将鸟瞰图（BEV）与两个额外的垂直平面相结合。此外，Symphonies强调了实例表示在SSC任务中的重要性。虽然SSC方法可以直接应用于3D占用预测，但存在两个主要区别：

1）SSC主要旨在根据可见区域推断不可见区域的占用，而3D占用预测则侧重于可见区域；

2）SSC方法通常针对静态场景，而3D占用预测方法通常设计用于处理动态场景。

大多数现有的基于体积的SSC和3D占用预测方法都具有密集特性，包括涵盖整个场景的输入和输出。以BEVFormer基线为例：它将场景分割成均匀的BEV网格，无法区分不同区域的网格。这种均匀性限制了基于体积的方法（如BEVFormer）对感兴趣的区域进行采样的能力，从而在训练期间获得更好的性能。此外，如果下游任务想在推理阶段专注于特定区域，基于体积的方法只能推断整个场景，然后执行后处理，这不可避免地会导致不必要的成本增加。此外，随着场景大小和体素分辨率的增加，计算需求呈指数级增长。与此形成鲜明对比的是，本文的基于点的模型通过专注于PoI引入了急需的灵活性。本文的方法有助于在特定区域进行直接推理，无需后处理，避免了额外的计算负担。

一种与点相关的SSC方法是PointOcc，这是一种基于点云的SSC预测方法，使用三个互补的视图平面进行高效的点云特征建模，并使用高效的2D主干进行处理以减少计算负荷，而本文的方法则侧重于训练和推理的灵活性。

3.3 基于相机的3D检测

基于摄像头的3D感知任务在最近的研究中引起了广泛关注，这主要是因为摄像头作为数据收集传感器既方便又经济高效。早期的研究，如FCOS3D和DETR3D，探索了从2D到3D预测的转变。BEVFormer代表了这一领域的重大进步，它将车载摄像头捕获的图像转换为鸟瞰图（BEV）表示。这项技术不仅增强了车辆对环境的理解，而且还在各种下游任务中得到应用，如BEVStereo和BEVDet，并扩展到3D占用预测。

3D检测任务在基于摄像头的3D感知中非常重要，也与3D占用预测高度相似。3D检测的主要目标涉及估计物体在3D空间中的位置和尺寸。DETR3D借鉴DETR的灵感，创新地将3D物体查询与图像特征相结合，并结合了相机的内在和外在参数。PETR及其后继者PETRv2通过解决参考点采样的准确性和全局信息的纳入问题进一步完善了这种方法，并通过历史数据集成增强了3D检测。与物体检测相比，3D占用预测提供了更细的粒度，这对于穿越不规则障碍物或悬垂物体至关重要。必须探索如何从BEV表示和3D物体检测中获得见解，以激发针对3D占用预测特定要求的创新解决方案。

4. 前提设定

4.1 问题设置

本文的目标是在仅给定 $N$ 个环视RGB图像的情况下，提供自车辆周围的占用预测。更具体地说，本文使用表示为 $\mathbf{I}_i = \{ I_0, I_1, ..., I_N\}$ 的当前图像作为输入，并使用在自车辆坐标中定义的占用预测 $\mathbf{Y}_i \in \{c_0, c_1, ..., c_M \}^{H \times W \times Z}$ 作为输出，其中每个占用预测要么为空（表示为 $c_0$ ），要么由 ${c_1, c_m, ..., c_M \}$ 中的某个语义类占用。算法假设每帧中都有已知的相机内在参数 ${K_{i}\}$ 和外在参数 ${[R_i|t_i]\}$ ，假设通过应用相机可见性掩码来预知每个区域是否可见。

4.2 兴趣点

在本文的模型中，作者创新性地引入了兴趣点（PoI）的概念，它是一组稀疏点来表示3D场景。PoI可以灵活地表示需要额外关注的物体或区域，例如行人或自车附近的区域，并且可以在训练和推理阶段根据需要进行设计。作者使用三种类型的PoI，定义和功能介绍如下：

1）标准网格： 通过在推理阶段对网格中心点进行采样并对标准3D占用网格进行预测，本文的模型与现有方法进行了公平的比较并取得了良好的结果。

2）自适应采样： 在训练阶段，本文的模型自适应地对点进行采样并对它们周围的点进行过采样以提高准确性。认识到基于体积的方法统一处理所有位置，本文的基于点的方法允许在特别感兴趣的区域或难以学习的区域进行重新采样。这种自适应重采样策略也用于增强基于体积的方法的性能。因此，本文的方法可以作为一个多功能插件，无缝集成并增强现有的基于体积的方法。

3）手动采样： 本文的模型在采样任何区域方面非常灵活，特别适合各种下游任务的独特需求。

本文的模型可以通过将PoI手动设置为场景外的区域（例如距离自我车辆200米）来预测超出标准感知范围的区域，这是传统基于体积的方法无法实现的壮举。这种扩展不仅扩大了推理范围，还为场景理解引入了新的维度。

这些PoI是本文方法的基础，具有精确性和高灵活性。

5. 方法

5.1 整体架构

图2展示了所提出的Occupancy作为点集的总体架构。给定来自 $N$ 个视图的图像 $\mathbf{I} = \{ I_i,i = 1,2,...,N \}$ ，本文将这些图像输入ResNet以获取其特征。

OSP首先在空间中采样一组3D点，这些点是初始PoI。在本文的实验中，作者使用网格的中心点作为初始 PoI，以便与传统的基于体积的方法进行公平比较，并为性能比较和评估提供可靠的基线。作者在相机的可见区域内采样 $K (K = 8000)$ 个点，并对这些点引入随机扰动。

然后本文对3D点进行归一化。对于这些归一化的坐标，作者应用正弦和余弦函数作为位置编码的一种形式，然后利用这种编码的位置信息创建查询位置嵌入。在训练阶段，在每个解码器层中，与每个单独查询相对应的查询位置保持一致。3D坐标以及相机的内在和外在参数用于将这些点映射到像素平面上。此映射过程产生相应的键和值对。随后，作者采用点交叉注意机制来计算输出。然后本文自适应地过采样一组个点，其坐标由线性层计算，并采用组点交叉注意来融合额外采样点的特征。

5.2 3D位置编码

应用PoI获得3D点后，我们首先使用以下方程对坐标点进行规范化：