ECCV24自动驾驶3D感知新作:如何仅用‘点’让自动驾驶汽车全面感知世界?

导读:

本文引入一个可以全面理解3D场景的方法,通过将点查询与2D图像特征交互而建立的新型基于点的占用表示。提出一个灵活的框架,允许在任何感兴趣的区域进行推理,而无需重新训练或牺牲准确性,并预测场景以外的区域。©️【深蓝AI】编译

1. 摘要

在本文中,作者探索了一种用于从多视角图像中进行3D占用预测的新型点表示,称为“占用作为点集”。现有的基于相机的方法倾向于利用密集的基于体积的表示来预测整个场景的占用,这使得很难将注意力集中在特殊区域或感知范围之外的区域。相比之下,本文提出了兴趣点(PoI)来表示场景,并提出了OSP,一种基于点的3D占用预测的新框架。由于基于点的表示固有的灵活性,OSP与现有方法相比实现了强大的性能,并且在训练和推理适应性方面表现出色。它超越了传统的感知界限,可以与基于体积的方法无缝集成,以显着提高其有效性。在Occ3D-nuScenes占用基准上的实验表明OSP具有强大的性能和灵活性。

2. 引言

图1|基于体积的方法和本文方法的比较©️【深蓝AI】编译

整体的3D场景理解对于自动驾驶系统至关重要,直接影响后续任务的效率和准确性。考虑到摄像头相对于其他传感器的成本效益和易于部署,开发基于视觉的 3D场景理解方法已成为一项重大且广泛研究的挑战。

为了应对这一挑战,人们提出了3D语义场景补全(SSC),并对其进行了广泛研究,以便从有限的观察中联合推断场景的几何和语义信息。SSC任务要求模型准确预测可见位置并补全不可见位置的信息。最近,Occ3D引入了一项名为3D占用预测的新任务定义。此任务与SSC的主要区别在于3D占用预测仅关注可见区域,并且针对动态场景进行了量身定制。

现有的3D占用预测方法大多基于密集BEV方法,例如BEVFormer、BEVDet。这些方法将BEV编码器与占用头集成在一起以生成输出并增强BEV感知能力以获得更好的结果。然而,它们有一些共同的缺点:

1)均匀采样: 基于BEV的方法无法区分同一场景内的不同区域,这会导致粗采样并阻碍动态或多分辨率采样能力。

2)推理灵活性有限: 在推理过程中,这些方法只能一次处理整个场景。它们缺乏根据不同的下游任务或特定的实际需求推断场景不同部分的能力。

这些限制凸显了对更灵活的3D占用预测方法的需求,该方法可以处理复杂场景,同时适应不同的推理要求。在本文中,作者提出了一种新的基于点的3D占用预测表示。本文没有像现有的基于体积的方法那样将场景划分为均匀的网格,而是提出了兴趣点(PoI)将场景视为点的集合,有助于在训练和推理阶段灵活地对场景进行采样。图1比较了基于体积和基于点的表示。与基于体积的表示相比,本文的基于点的表示具有以下优点:

1)它可以接受任何规模和位置的输入来进行占用预测,包括手动设计和自适应设计的输入,提供灵活性;

2)它可以特别关注某些区域,而不是平等对待所有区域,从而增强模型的感知能力。

本文引入了“占用点集”(OSP),这是一种新颖且灵活的基于点的框架,它建立在兴趣点(PoI)的基本概念之上。OSP在3D占用预测方面表现出色,由图像主干、3D定位编码器和解码器组成,如图2所示。本文方法的核心是创新使用PoI,作者将其分为三种不同的类型以满足不同的需求,从而显著增强了本文模型性能的各个方面。这些PoI的详细描述将在第3节中提供。值得注意的是,除了本文最初提出的三种类型之外,可以根据需要设计PoI。

3. 相关工作

3.1 3D占据预测

3D占用预测是Occ3D最近定义的一个概念,它与机器人技术中使用的占用网格映射(OGM)有着显著的相似之处。此任务旨在根据一系列传感器输入预测场景中每个体素网格的状态。Occ3D利用Waymo开放数据集和nuScenes数据集建立了两个基准来促进这一目标。在基于视觉的3D占用预测中,Occ3D实现了摄像头可见性估计并创建了可见性掩码以确保评估仅限于可见区域。它还在其基准上评估了各种SSC方法,包括MonoScene、TPVFormer、BEVDet、OccFormer和BEVFormer。

3.2 3D场景语义补全

场景语义补全(SSC)是一项与3D占用预测密切相关的任务。SSC的概念最初在SSCNet中提出,重点是根据场景的部分可见区域预测场景的综合语义信息。近年来,SSC的研究得到了显著扩展,尤其是在小型室内场景的背景下。近年来,针对广阔室外环境的场景语义补全(SSC)研究势头强劲,尤其是在引入SemanticKITTI数据集之后。值得注意的是,MonoScene成为第一种应用基于单目纯视觉的SSC的方法。与此并行的是,OccDepth通过结合来自立体输入的深度数据增强了2D到3D特征转换。TPVFormer反对单平面建模在捕捉复杂细节方面的局限性,因此它采用了三视角(TPV)方法,将鸟瞰图(BEV)与两个额外的垂直平面相结合。此外,Symphonies强调了实例表示在SSC任务中的重要性。虽然SSC方法可以直接应用于3D占用预测,但存在两个主要区别:

1)SSC主要旨在根据可见区域推断不可见区域的占用,而3D占用预测则侧重于可见区域;

2)SSC方法通常针对静态场景,而3D占用预测方法通常设计用于处理动态场景。

大多数现有的基于体积的SSC和3D占用预测方法都具有密集特性,包括涵盖整个场景的输入和输出。以BEVFormer基线为例:它将场景分割成均匀的BEV网格,无法区分不同区域的网格。这种均匀性限制了基于体积的方法(如BEVFormer)对感兴趣的区域进行采样的能力,从而在训练期间获得更好的性能。此外,如果下游任务想在推理阶段专注于特定区域,基于体积的方法只能推断整个场景,然后执行后处理,这不可避免地会导致不必要的成本增加。此外,随着场景大小和体素分辨率的增加,计算需求呈指数级增长。与此形成鲜明对比的是,本文的基于点的模型通过专注于PoI引入了急需的灵活性。本文的方法有助于在特定区域进行直接推理,无需后处理,避免了额外的计算负担。

一种与点相关的SSC方法是PointOcc,这是一种基于点云的SSC预测方法,使用三个互补的视图平面进行高效的点云特征建模,并使用高效的2D主干进行处理以减少计算负荷,而本文的方法则侧重于训练和推理的灵活性。

3.3 基于相机的3D检测

基于摄像头的3D感知任务在最近的研究中引起了广泛关注,这主要是因为摄像头作为数据收集传感器既方便又经济高效。早期的研究,如FCOS3D和DETR3D,探索了从2D到3D预测的转变。BEVFormer代表了这一领域的重大进步,它将车载摄像头捕获的图像转换为鸟瞰图(BEV)表示。这项技术不仅增强了车辆对环境的理解,而且还在各种下游任务中得到应用,如BEVStereo和BEVDet,并扩展到3D占用预测。

3D检测任务在基于摄像头的3D感知中非常重要,也与3D占用预测高度相似。3D检测的主要目标涉及估计物体在3D空间中的位置和尺寸。DETR3D借鉴DETR的灵感,创新地将3D物体查询与图像特征相结合,并结合了相机的内在和外在参数。PETR及其后继者PETRv2通过解决参考点采样的准确性和全局信息的纳入问题进一步完善了这种方法,并通过历史数据集成增强了3D检测。与物体检测相比,3D占用预测提供了更细的粒度,这对于穿越不规则障碍物或悬垂物体至关重要。必须探索如何从BEV表示和3D物体检测中获得见解,以激发针对3D占用预测特定要求的创新解决方案。

4. 前提设定

4.1 问题设置

本文的目标是在仅给定 N N N个环视RGB图像的情况下,提供自车辆周围的占用预测。更具体地说,本文使用表示为 I i = { I 0 , I 1 , . . . , I N } \mathbf{I}_i = \{ I_0, I_1, ..., I_N\} Ii={I0,I1,...,IN}的当前图像作为输入,并使用在自车辆坐标中定义的占用预测 Y i ∈ { c 0 , c 1 , . . . , c M } H × W × Z \mathbf{Y}_i \in \{c_0, c_1, ..., c_M \}^{H \times W \times Z} Yi{c0,c1,...,cM}H×W×Z作为输出,其中每个占用预测要么为空(表示为 c 0 c_0 c0),要么由 { c 1 , c m , . . . , c M } \{c_1, c_m, ..., c_M \} {c1,cm,...,cM}中的某个语义类占用。算法假设每帧中都有已知的相机内在参数 { K i } \{K_{i}\} {Ki}和外在参数 { [ R i ∣ t i ] } \{[R_i|t_i]\} {[Riti]},假设通过应用相机可见性掩码来预知每个区域是否可见。

4.2 兴趣点

在本文的模型中,作者创新性地引入了兴趣点(PoI)的概念,它是一组稀疏点来表示3D场景。PoI可以灵活地表示需要额外关注的物体或区域,例如行人或自车附近的区域,并且可以在训练和推理阶段根据需要进行设计。作者使用三种类型的PoI,定义和功能介绍如下:

1)标准网格: 通过在推理阶段对网格中心点进行采样并对标准3D占用网格进行预测,本文的模型与现有方法进行了公平的比较并取得了良好的结果。

2)自适应采样: 在训练阶段,本文的模型自适应地对点进行采样并对它们周围的点进行过采样以提高准确性。认识到基于体积的方法统一处理所有位置,本文的基于点的方法允许在特别感兴趣的区域或难以学习的区域进行重新采样。这种自适应重采样策略也用于增强基于体积的方法的性能。因此,本文的方法可以作为一个多功能插件,无缝集成并增强现有的基于体积的方法。

3)手动采样: 本文的模型在采样任何区域方面非常灵活,特别适合各种下游任务的独特需求。

本文的模型可以通过将PoI手动设置为场景外的区域(例如距离自我车辆200米)来预测超出标准感知范围的区域,这是传统基于体积的方法无法实现的壮举。这种扩展不仅扩大了推理范围,还为场景理解引入了新的维度。

这些PoI是本文方法的基础,具有精确性和高灵活性。

5. 方法

5.1 整体架构

图2|占用作为点集的总体框架©️【深蓝AI】编译

图2展示了所提出的Occupancy作为点集的总体架构。给定来自 N N N个视图的图像 I = { I i , i = 1 , 2 , . . . , N } \mathbf{I} = \{ I_i,i = 1,2,...,N \} I={Ii,i=1,2,...,N},本文将这些图像输入ResNet以获取其特征。

OSP首先在空间中采样一组3D点,这些点是初始PoI。在本文的实验中,作者使用网格的中心点作为初始 PoI,以便与传统的基于体积的方法进行公平比较,并为性能比较和评估提供可靠的基线。作者在相机的可见区域内采样 K ( K = 8000 ) K(K = 8000) K(K=8000)个点,并对这些点引入随机扰动。

然后本文对3D点进行归一化。对于这些归一化的坐标,作者应用正弦和余弦函数作为位置编码的一种形式,然后利用这种编码的位置信息创建查询位置嵌入。在训练阶段,在每个解码器层中,与每个单独查询相对应的查询位置保持一致。3D坐标以及相机的内在和外在参数用于将这些点映射到像素平面上。此映射过程产生相应的键和值对。随后,作者采用点交叉注意机制来计算输出。然后本文自适应地过采样一组 个点,其坐标由线性层计算,并采用组点交叉注意来融合额外采样点的特征。

5.2 3D位置编码

应用PoI获得3D点后,我们首先使用以下方程对坐标点进行规范化:

x , y , z = x − x min ⁡ x max ⁡ − x min ⁡ , y − y min ⁡ y max ⁡ − y min ⁡ , z − z min ⁡ z max ⁡ − z min ⁡ {x, y, z} = \frac{x - x_{\min}}{x_{\max} - x_{\min}}, \frac{y - y_{\min}}{y_{\max} - y_{\min}}, \frac{z - z_{\min}}{z_{\max} - z_{\min}} x,y,z=xmaxxminxxmin,ymaxyminyymin,zmaxzminzzmin

其中:

[ x min ⁡ , y min ⁡ , z min ⁡ , x max ⁡ , y max ⁡ , z max ⁡ ] = [ − 40 m , − 40 m , − 1 m , 40 m , 40 m , 5.4 m ] [x_{\min}, y_{\min}, z_{\min}, x_{\max}, y_{\max}, z_{\max}] = [-40m, -40m, -1m, 40m, 40m, 5.4m] [xmin,ymin,zmin,xmax,ymax,zmax]=[40m,40m,1m,40m,40m,5.4m]

是场景的预设边界。

通过正弦和余弦函数,本文将归一化的坐标编码为高维位置信息。然后作者使用一个包含两个线性层和一个ReLU层的小型MLP将高维位置信息转换为可学习的嵌入。

5.3 点编码

本文使用三个解码器层来构建点解码器。解码器的每一层都包含点交叉注意(PCA)和组点交叉注意(GPCA)。

PCA和GPCA的目的是将位置嵌入与图像特征相结合,从而促进更具凝聚力的表示。由于可变形注意的效率很高,作者的点解码器机制采用了这种技术。因此,本文框架中的每个查询都可以按如下方式更新:

DA ( q , p , F ) = ∑ s = 1 N s A s W s F 2 D ( p + Δ p s ) \texttt{DA}(\mathbf{q}, \mathbf{p}, \mathbf{F}) = \sum_{s=1}^{N_s} \mathbf{A}_{s} \mathbf{W}_s \mathbf{F^{2D}}(\mathbf{p}+\Delta \mathbf{p}_{s}) DA(q,p,F)=s=1NsAsWsF2D(p+Δps)

其中 N s N_s Ns表示采样偏移量的数量, A s \mathbf{A}_{s} As表示可学习的注意力权重, F 2 D ( p + Δ p s ) \mathbf{F^{2D}}(\mathbf{p}+\Delta \mathbf{p}_{s}) F2D(p+Δps)表示在位置 p + Δ p s \mathbf{p}+\Delta \mathbf{p}_{s} p+Δps处收集的图像特征,其中 Δ p s \Delta \mathbf{p}_{s} Δps表示应用于位置 p \mathbf{p} p的偏移量。

点交叉注意力:

点交叉注意机制首先获取点查询(最初设置为零),然后将其与从本文的3D位置编码器得出的点位置编码相结合。此组合形成输入查询。随后,这些查询与2D图像特征进行可变形交叉注意。鉴于并非所有3D点都投影到图像平面上,特别是在nuScenes数据集提供的六个环绕视图的背景下。每个点可能只映射到这些视图中的一个或两个上。本文利用相机的内在和外在参数来确定给定点可以映射到哪些图像。这种方法确保对于任何特定点,本文只考虑它映射到的图像的特征,从而显着减少内存消耗。由于本文直接通过3D位置编码器导出3D点并生成点查询 q \mathbf{q} q,因此可以高效地执行3D点到2D图像特征的投影映射。

F 2 D = { F t 2 D , F t − 1 2 D , . . . } \mathbf{F}^{2D} = \{ \mathbf{F}^{2D}_t, \mathbf{F}^{2D}_{t-1}, ...\} F2D={Ft2D,Ft12D,...}表示映射后的二维图像特征,其中 t t t为图像的索引。因此,点交叉注意的公式可以描述如下:

PCA ( q , F 2 D ) = 1 ∣ V t ∣ ∑ t ∈ V t DA ( q , P ( p , t ) , F t 2 D ) \texttt{PCA}(\mathbf{q}, \mathbf{F}^{2D} ) = \frac{1}{|\mathcal{V}_{t}|} \sum_{t \in \mathcal{V}_{t}} \texttt{DA}(\mathbf{q}, \mathcal{P}(\mathbf{p},t), \mathbf{F}_t^{2D}) PCA(q,F2D)=Vt1tVtDA(q,P(p,t),Ft2D)

其中 V t \mathcal{V}_{t} Vt表示命中图像, t t t表示图像索引, P ( p , t ) \mathcal{P}(\mathbf{p},t) P(p,t)表示输入位置 p p p的投影函数。

组点交叉注意力:

组点交叉注意机制旨在解决PCA中缺乏局部上下文的问题,因为每个点都独立地与图像特征交互。本文自适应地对作者的PoI周围的一组 M ( M = 8000 ) M(M = 8000) M(M=8000)点进行过采样,这些点的坐标由线性层计算。本文使用从PCA获得的注意力和由作者的点组映射的2D图像特征。因此,组点交叉注意的公式可以描述如下:

GPCA ( q g , F 2 D ) = 1 ∣ V t ∣ ∑ t ∈ V t DA ( q g , P ( p g , t ) , F t 2 D ) \texttt{GPCA}(\mathbf{q_g}, \mathbf{F}^{2D} ) = \frac{1}{|\mathcal{V}_{t}|} \sum_{t \in \mathcal{V}_{t}} \texttt{DA}(\mathbf{q_g}, \mathcal{P}(\mathbf{p_g},t), \mathbf{F}_t^{2D}) GPCA(qg,F2D)=Vt1tVtDA(qg,P(pg,t),Ft2D)

其中 q g \mathbf{q_g} qg表示PCA计算出的注意力, p g \mathbf{p_g} pg表示过采样点组的输入位置。

5.4 损失函数

本文将类交叉熵损失和骰子损失应用于此任务。基本事实 G ^ t ∈ { c 0 , c 1 , . . . , c M } \hat{\mathbf{G}}_t \in \{c_0, c_1, ..., c_M \} G^t{c0,c1,...,cM}表示一组空间点的语义信息。类交叉熵损失可以通过以下方式计算:

L c e = − ∑ n = 1 N ∑ c = c 0 c M w c g ^ n , c l o g ( e g n , c ∑ c e g n , c ) \mathcal{L}_{ce} = - \sum_{n=1}^{N} \sum_{c=c_0}^{c_M} w_c {\hat{g}}_{n,c} log(\frac{e^{{g}_{n,c}}}{\sum_c e^{{g}_{n,c}}}) Lce=n=1Nc=c0cMwcg^n,clog(cegn,cegn,c)

其中 n n n是点的索引, N N N是选定点的数量, c c c是索引类, g n , c g_{n,c} gn,c是属于类 c c c的第 n n n个点的预测, w c w_c wc是根据类频率的倒数为每个类分配的权重。骰子损失可以通过以下方式计算:

L d i c e = 1 − 2 ∑ i = 1 N p i g i ∑ i = 1 N p i 2 + ∑ i = 1 N g i 2 \mathcal{L}_{dice}= 1 - \frac{2 \sum_{i=1}^{N} p_{i} g_{i}}{\sum_{i=1}^{N} p_{i}^2 + \sum_{i=1}^{N} g_{i}^2} Ldice=1i=1Npi2+i=1Ngi22i=1Npigi

其中 p i p_i pi是该点的预测概率, g i g_i gi是该点的真实二进制标签。本文的最终损失是两个损失的总和:

L a l l = L d i c e + L c e \mathcal{L}_{all}=\mathcal{L}_{dice} + \mathcal{L}_{ce} Lall=Ldice+Lce

6. 实验

6.1 实验设定

数据集:

本文在带有Occ3D提供的注释的nuScenes数据集上进行实验。Occ3D-nuScenes基准测试关注的是汽车前后80.0m、左右80.0m和6.4m高的体积。每个样本被划分为一组3D体素网格,尺寸为 [ 200 , 200 , 16 ] [200, 200, 16] [200,200,16],因为每个体素的大小为 [ 0.4 m , 0.4 m , 0.4 m ] [0.4m, 0.4m, 0.4m] [0.4m,0.4m,0.4m]。占用语义有18个类别,其中第18个类别为空,不参与评估。Occ3D-nuScenes分别通过聚合静态场景和移动对象的点来提供地面真实语义体素网格。此外,Occ3D-nuScenes利用基于光线投射的方法来估计相机可见性并提供相机可见性掩码。

评估指标:

对于此任务,本文使用mIoU作为评估指标,其公式如下:

m I o U = 1 C ∑ c = 1 C T P c T P c + F P c + F N c mIoU=\frac{1}{C} \sum_{c=1}^C \frac{T P_c}{T P_c+F P_c+F N_c} mIoU=C1c=1CTPc+FPc+FNcTPc

按照3D占用预测的定义,本文仅评估可见区域的结果。

表1|Occ3D-nuScenes数据集上的3D占用率预测性能©️【深蓝AI】编译

实施细节:

本文将六张原始大小的图像输入ResNet101以获取图像特征。作者的图像主干在FCOS3D上进行了预训练,这与BEVFormer基线中使用的主干相同。然后,FPN将获取这些特征以生成多尺度特征图。特征的维度为d=256。本文堆叠了三个解码器层,每个解码器层都有点交叉注意和组点交叉注意。所有交叉注意都是可变形的,本文在像素平面上为每个参考点采样8个点。有一个小型MLP作为本文的基于点的占用预测器,它将256个特征维度投影到类别数量。本文在8个NVIDIA 3090 GPU上训练我们的模型,共24个时期。作者使用AdamW优化器,学习率为 2 × 1 0 − 4 2×10^{−4} 2×104,权重衰减为0.01。主干的学习率小10倍。此外,本文还进行了一项单独的实验,使用上述相同的设置,作者使用冻结的BEVFormer基线主干训练我们的解码器,并且该解码器将用作BEVFormer基线的插件模块。

基线方法:

作者将Occupancy as Set of Points 与 Occ3D在Occ3D-nuScenes基准上复制的现有方法进行比较,包括MonoScene、TPVFormer、BEVDet、OccFormer和BEVFormer。为了与基线进行公平比较,本文在训练期间使用相机可见掩码通过本文的实现提供使用BEVFormer的结果。

6.2 性能分析

评估策略:

本文对该方法的评估策略全面利用了前面概述的三种兴趣点(PoI)。这种方法包括:

1)标准网格

本文在网格中心进行采样,能够将作者的方法的mIoU与传统的基于体积的方法进行基准测试。这种比较直接评估了作者的方法在标准场景中的性能。

2)自适应采样

本文在训练阶段自适应地过采样以提高我们的性能。此外,将作者的方法作为补充工具与基于体积的方法相结合。通过自适应地选择需要改进的PoI,作者的方法增强并增强了现有的基于体积的技术,如图3所示。

3)手动采样

作者手动选择标准感知范围之外的点并测试模型的感知能力。

通过这些多样化和全面的评估技术,本文能够全面评估作者的方法在不同场景和用例中的性能和灵活性。
标准网格。在表1中,作者通过将PoI设置为标准网格,在Occ3D-nuScenes基准上对作者的方法与现有的基于摄像头的3D占用预测技术进行了基准测试。本文的基于点的方法取得了显着的改进,与Bevformer基线的实现相比,获得了1.57 mIoU的性能提升。值得注意的是,作者的方法在几乎所有类别指标上都优于BEVFormer基线,在检测小目标方面表现出特别明显的优势,例如自行车(20.28 → 27.06)、摩托车(25.39 → 29.37)、行人(26.16 → 29.37)和交通锥(25.1 → 28.31)。这一优势主要是因为空间点的直接采样有利于小物体的特征提取和映射。

表2|预测场景以外的区域©️【深蓝AI】编译述

自适应采样:

1)表4所示的结果表明,作者的自适应过采样策略将结果从38.01提高到了38.48。

2)在自适应细化实验中,本文使用作者实现的BEVFormer基线作为基于体积的方法的代表,并通过自适应地选择置信度较低的位置,使用不同尺度的PoI用作者的方法对其进行增强。本文的模型使用冻结的BEVFormer基线主干进行训练。实验结果(如表3所示)证实,本文的插件模型显著提高了BEVformer的性能。值得注意的是,BEVFormer w/OSP的结果超过了两个独立运行的模型获得的结果。此外,随着本文增加细化场景的尺寸,BEVFormer w/OSP的mIoU分数也表现出显着的改善,表明作者的细化方法在各个领域都非常有效。

表3|使用我们的解码器改进 BEVFormer©️【深蓝AI】编译

手动采样:

Occ3D-nuScenes 数据集提供[80m × 80m]范围内的注释。作者手动在较小的[60m × 60m]区域内设置点和注释,并将PoI设置为该区域外的点。为了全面评估本文的方法,作者在三个不同的范围内进行了评估:标准[60m × 60m]范围、完整数据集范围[80m × 80m]以及从60m到80m的中间范围。表2中显示的结果证明了本文的方法能够在手动选择的位置进行预测,在这种情况下,该位置超出了预定义范围。

图3|采用OSP进行基于体积的精炼方法的流程©️【深蓝AI】编译

6.3 消融实验

表4|模型架构消融实验分析©️【深蓝AI】编译

模型架构:

本文对模型结构进行了消融实验,特别是探索了Transformer层数和自适应过采样策略的变化,这些实验的结果如表4所示。

即使没有过采样策略,只使用3层Transformer,本文方法的基线也已经超越了BEVFormer基线,mIoU从37.84提高到38.01。过采样策略通过增强空间点之间的连接进一步放大了这一改进,最终使mIoU增加到38.48。

表5|2D图像特征消融实验分析©️【深蓝AI】编译

2D图像特征:

本文方法的性能在很大程度上取决于图像特征的质量。为了阐明这种依赖性,本文进行了消融研究,重点关注模型“颈部”组件的输出。这些实验证明了使用特征金字塔网络(FPN)的多尺度输出的显著影响。这种架构选择显著提升了模型的性能,如表5所示,指标得分从38.67增加到39.41。

表6|网格中心采样方法消融实验分析©️【深蓝AI】编译

网格中心采样方法:

本文的消融实验还研究了训练期间网格中心采样方法的技术。虽然最初使用网格中心点作为坐标,但本文通过添加随机扰动引入了变化。结果(如表6中所述)表明,对网格中心点引入这种扰动会使mIoU提高到 38.67。

表7|损失函数消融实验分析©️【深蓝AI】编译

自适应点采样:

在推理过程中,作者在BEVFormer w/OSP和OSP中应用自适应采样(自适应地选择具有高不确定性的点)。自适应采样可以减少计算负担,同时保持良好的性能,如表8所示。使用自适应采样的BEVFormer w/OSP意味着我们通过自适应地选择具有高不确定性(约20%)的点来改进BEVFormer。使用自适应采样的OSP意味着我们只将置信度较低的点转发到下一个解码器层,同时直接输出解码器中具有高置信度的点的结果。高不确定性的点定义为在softmax之后置信度得分低于阈值0.9的点。

表8|OSP适应性消融实验分析©️【深蓝AI】编译

图4|算法结果示意图©️【深蓝AI】编译

7.总结

本文提出了一种新颖的3D场景表示视角,通过一组点来查看它。本文引入了兴趣点(PoI)的创新概念,这大大提高了场景表示的灵活性。在PoI奠定的基础之上,作者开发了一个高度适应性的基于点的3D占用预测框架,称为OSP,本文在Occ3D-nuScenes基准上验证了OSP的强大性能和灵活性。本文的工作不仅为3D占用预测领域做出了贡献,而且为3D场景分析中更动态和适应性更强的方法铺平了道路。
©️【深蓝AI】

Ref:
Occupancy as Set of Points
编译|匡吉
审核|Los

本文首发于公众号【深蓝AI】,移步公众号【深蓝AI】,第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态👇
深蓝AI·赋能自动驾驶+机器人+AI

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值