扩散模型+BEV太强 | Diffusion BEV感知,小目标+遮挡都得到缓解!

作者 | AI驾驶员  编辑 | 智驾实验室

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心【BEV感知】技术交流群

本文只做学术分享,如有侵权,联系删文

70efd63db05635c007189744459e58c7.jpeg

鸟瞰视角(BEV)是自动驾驶车辆(AVs)中最广泛使用的场景表示之一,因为它非常适合下游任务。为了提高AVs的安全性,在BEV中建模感知不确定性至关重要。最近,基于扩散的方法为视觉感知的不确定性建模提供了有前景的方法,但在大型覆盖范围下的BEV中无法有效检测小目标。这种性能下降主要可以归因于训练时使用的特定网络架构和匹配策略。

在这里,作者通过将扩散范式与当前最先进的BEV中的3D目标检测器相结合来解决这个问题。作者分析了这种方法所面临的独特挑战,这些挑战在确定性检测器中并不存在,并提出了一个基于目标 Query 插值的简单技术,即使存在扩散噪声,模型也能学习位置依赖性。基于这一点,作者提出了一种基于扩散的DETR模型,用于目标检测,该模型与粒子方法具有相似性。

在NuScenes数据集上的大量实验表明,与确定性状态最先进的算法相比,作者的生成方法具有同等或更好的性能。作者的源代码将公开发布。

1 Introduction

三维目标检测 - 在实际三维坐标系中定位和分类物体 - 是自动驾驶车辆流水线中最重要的任务之一。由于它直接影响到后续的预测、规划和执行模块,显然,为了避免障碍物,作者需要识别障碍物。直接从摄像头的视角估计物体的位置面临着透视变形和尺寸-距离歧义等问题。因此,鸟瞰视角(BEV)作为一种有用的表示形式,因为它是以自我为中心的、度量准确的、正交的,从而避免了形状的透视变形,并且受到遮挡和物体变形的影响较小。

913c0132bfc5a92b32973dbb5bb90ffd.jpeg

最近,已经证明扩散模型可以成功用于2D目标检测 [9] - 与生成任务(如文本到图像)完全不同的设置,在那里它们主导着。原则上,应该能够将基于扩散的目标检测应用于2D BEV,并预测3D位置,从而获得所有扩散的好处,如逐步精炼和计算与准确性之间的权衡?

作者发现,在BEV中无根据地应用扩散会导致性能不足的算法。作者认为这主要归因于具有挑战性的问题设置和网络架构没有针对BEV的特定几何方面进行优化。

设置:最近的一些工作将BEV表示为与自身车辆周围(50x50)或甚至(100x100)米网格相关的空间相关潜在特征。可检测的目标(如汽车和行人)相对于整个BEV地图的大小自然非常小,这使得与用于基准2D检测算法的常见数据集相比,检测更具挑战性。

架构:DiffusionDet [9],代表性的扩散算法,使用基于ROI(Region of Interesting,感兴趣区域)的架构,仅在提出的框内聚合BEV(鸟瞰视角)特征。这使得目标特征更加局部,避免了在BEV上的广泛搜索。在目标框较大且更密集的场景中,局部特征工作得很好,但作者在BEV中认为需要一种更专业的架构来更好地处理目标的稀疏性。

问题陈述和方法。由于目标检测本质上是一个搜索问题,而较小的物体定位更困难,因此在BEV中使用扩散检测物体的一些固有挑战可能会加剧。因此,作者试图回答的研究问题是:如何调整扩散方法和网络架构,以便在BEV中更容易地搜索?为了实现这一目标,作者的洞察是,首先,为了更有效地搜索,应该在搜索 Token(BBox, Anchor 点, Query )之间池化信息,其次,应该采取措施防止扩散噪声淹没数据中存在的任何位置依赖性。

为了在搜索 Token 之间池化信息,作者需要使它们_相互通信_。这可以通过使用自注意力来实现,这反过来又指向了类似于DETR这样的Transformer方法。这些模型使用一些固定的目标 Query ,它们学习将这些 Query 回归到预测的框中。它们进一步采用了交叉注意力模块,以独立于单个 Query 的方式从图像中查找相关的特征。组合架构可以利用全局特征,随着物体尺寸的减小,这种全局特征变得越来越有用。

关于位置依赖性,作者展示了扩散噪声如何影响预测框和目标框之间的匹配。本质上,大多数方法(如DeformableDETR)都从固定的参考点开始,查找这些位置的图像特征,并输出相应的校正,这些校正随后被应用到它们上。但是,当扩散应用于初始参考点时,它们不再与物体 Query 相关联,阻止模型使用位置信息。

为了解决这个挑战,作者引入了一种简单的方法_物体 Query 插值_,即使存在参考点上的噪声,也能让DETR类模型学习位置关系。

最终生成的生成模型可以优化其预测,权衡准确性和计算,在不同数量的搜索 Token (在训练和测试时)上运行,并产生与经过实战检验的确定性模型相当或更好的结果。此外,它与粒子方法相似,可以从粒子剪枝和优化的想法中借用灵感。

作者的贡献如下:

  1. 通过展示扩散过程的随机性如何影响分配,提供了一种对DETR类似模型[5, 71]中存在的分配不稳定问题的新看法。

  2. 展示了一种名为_ Query 插值_的模块,该模块允许模型在存在扩散噪声的情况下学习位置信息。

  3. 将提出的模块集成到变形DETR的变体中,称为粒子DETR,该变体使用扩散来去噪BBox中心到它们的真实位置。作者还进一步对模型在现实和大规模NuScenes数据集上的性能进行了详细分析。

2 Related Work

基于扩散的目标检测。利用扩散模型进行精确任务始于DiffusionDet,其中模型学习在图像坐标系中轴对齐的2DBBox去噪。首先,一个 Backbone 网络,例如ResNet或Swin Transformer,提取多尺度图像特征。在训练时,根据扩散计划,根据扩散时间表在真实(GT)BBox中添加随机噪声,而在测试时,从高斯分布中随机采样随机BBox。然后,一个基于区域感兴趣(ROI)的解码器架构将每个BBox内的特征聚合起来,并产生对BBox参数的校正。输出BBox然后被匹配到GTBBox进行训练。

其他应用。受到DiffusionDet的启发,扩散模型在其他预测任务中的应用也增加了。它已经被应用于BEV特征的去噪,未来离散BEV Token 的预测,视频中的动作分割,弱监督目标定位(WSOL),人类运动预测和姿态估计,域自适应语义分割,视频异常检测,伪装目标检测,文本视频检索,以及开放世界目标检测。

DETR模型家族。目前BEV中的目标检测主要由DETR变体主导。它们使用一个 Transformer 序列,其中固定数量的目标 Query 使用交叉注意力查找相关图像特征,并转换为固定数量的输出框。由于输出和GT是无序的,需要一个集合匹配步骤来为目标分配预测。这种匹配被称为不稳定的,因为在同一图像上的多个训练迭代中,一个预测可以被匹配到不同的目标。各种方法试图减轻这个问题,通过引入 Query 去噪,其中一些目标 Query 通过索引匹配到目标,以及对比去噪,其中在每个 Query 组中使用正负示例。

BEV感知。将摄像头特征转换为BEV是一个活跃的研究领域。这已经通过两种传统方法实现,即在图像平面上将3D Voxel 投影,并在投影内的图像特征进行平均池化,或者对每个图像像素估计一个分类深度分布,然后根据它们的深度在3D中提升特征。隐式投影,其中深度不显式估计,可以通过使用自注意力向上查找过去的BEV和交叉注意力向上查找当前图像特征实现。这就是作者在本工作中依赖的方法。一旦进入BEV,模型可以执行联合检测和轨迹预测,BEV分割,跟踪,或代理交互分析。

3 Approach

在本节中,作者通过考虑将扩散与BEV感知相结合时出现的独特挑战,参见第3.2节,以及作者的方法如何减轻这种挑战,参见第3.4节,来动机作者的方法。

Preliminaries

扩散模型。 扩散模型是一种生成模型,其目标是在样本空间上学习采样分布。为此,在训练过程中,一个随机过程根据预定义的调度向每个输入样本添加噪声。在训练时,模型学习预测添加的噪声,而在测试时,生成随机初始噪声,该模型逐步去噪直到形成训练分布中的数据点。

正向过程,在训练时向样本添加噪声,定义为

其中是扩散过程的时间索引(与BEV序列中的时间帧索引不同),是那个时间点的噪声样本,是噪声无的 GT 样本,是从调度中对应的参数,控制噪声的方差。

网络输出依赖于噪声样本,扩散时间及其参数被优化以最小化损失。

由于这对应于去噪过程,在测试时间作者采样随机噪声,并逐步通过将网络的先前输出作为后续输入来细化它,即。存在各种改进来加速这个过程。

由于添加到每个数据样本的噪声在所有样本元素之间是独立的,作者可以使用这个过程来生成不同的目标,如图像,边界框,相机姿态。在这里,扩散被应用于BEV中的BBox中心,作者称之为粒子。

DETR模型。 DETR模型用于目标检测依赖于基于 Transformer 的架构。一个特征提取器,通常为卷积,提取图像特征,然后传递到 Transformer 编码器中,其中每个特征块可以关注其他特征块。然后,一个依赖于固定数量N的潜在向量的 Transformer 解码器,被称为目标 Query ,从编码器中查找特征,并输出边界框。使用匈牙利算法进行一对一匹配,以将预测分配给框目标。

目标 Query 使用梯度下降进行学习,并在测试时固定。由于目标 Query 的位置编码也被使用,模型可以学习与目标 Query 顺序相关的信息。

对此设置的一个重要修改是由DeformableDETR提出的,其中不仅按顺序排列,而且每个目标 Query 都与图像坐标系中的特定2D位置相关,称为图像内的参考点。由于目标 Query 和参考点都由模型学习,因此模型可以不仅关注像素的内容,还可以关注 Query 位置。

固定参考点使得训练更容易,因为 Query 总是与 Query ()具有相同的相对位置。在这种情况下,解码器中的交叉注意力只学习如何关注周围的特征,从而使学习更加稳定。这种固定性质对于作者将引入扩散过程中的随机性至关重要。

Adding diffusion to BEV

作者的设置如图3所示。一个特征提取器与一个特征Neck处理当前时间步的所有摄像头图像,输出每个摄像头视图的多尺度特征图。在BEV中,作者向真实目标中心添加噪声并附加额外的随机位置,这些作为参考点传递给解码器,类似于DeformableDETR,将其中的某些优化为GT位置。

8915457488c621d0ba1d8b8e41b5cf30.jpeg

在测试时间,作者采样初始随机的BBox中心,并将其传递给解码器。由于模型已经训练为与可变参考点一起工作,因此可以在下一个去噪步骤中使用预测的BBox中心作为输入参考点。这使得作者可以迭代地优化预测 - 这一点是确定性模型(如DeformableDETR)无法做到的,因为它们依赖于特定的位置的目标 Query 。

遵循DETR 在每一层解码器上应用辅助损失,而不是仅仅在最后一层。将每个解码器层称为阶段,并将所有解码器层上的通过称为单个DDIM步骤。通过拥有多个这样的步骤,作者可以权衡准确性和计算。每个DDIM步骤只需要评估解码器。

Matching

DETR家族的检测器使用的匹配成本通常考虑预测的BBox尺寸和预测的类别logits。因此,不能说预测距离GT BBox更近的预测_总是_会被匹配,而那些距离更远的预测则不会被匹配。然而,确定性检测器收敛是因为即使匹配在不同的迭代中发生变化,输入的静态性质允许作者学习图像中的空间关系。

标签歧义。在扩散的情况下,存在特定情况,由于参考点噪声采样导致同一个BEV特征有不同的目标,实际上学习是不可能的。图4概念上说明了这些情况。

3c0b9fdf3deea1d4312a97721910bbe6.jpeg

假设作者使用Hungarian算法进行匹配,并将初始参考点样本为图4中顶部左边的蓝色点。那么匹配将如箭头所示。然而,如果其中一个点被采样 differently,如图4中顶部右边的蓝色点,作者可能会以不同的方式匹配它们。实际上,对应于噪声参考点1的位置的BEV特征将在优化中,在第一种情况下向目标1移动,而在第二种情况下向目标2移动。这导致了由于起始位置的随机采样而产生的标签歧义。

使用比GTBBox更多的目标 Query 可以减少这种歧义的可能性,从而有助于训练。这是因为拥有更多的预测,并将它们与任何考虑距离的战略(与例如按索引匹配不同)匹配,会使模型对起始参考点的改进变得更小。因此,需要大量的目标 Query ,既用于检测许多物体,也用于帮助准确地检测物体。关于玩具示例的解释可以在补充材料的第A部分找到。

Object query interpolation

作者将扩散应用于参考点。作为第一个方法,作者考虑使用DeformableDETR架构,其中包含个可学习的目标 Query 向量,它们通过索引分配给它们的参考点。因此,目标 Query 可以在每次训练迭代中根据采样放置在不同的位置。虽然这种方法在实际中相当有效,但它显然禁止模型仅通过 Query 的位置不断变化来学习位置信息。

相反,作者提出了一种在随机采样参考位置上插值学习的方法,如图5所示。作者学习了一组均匀放置的目标 Query ,并在参考点上双线性插值。这确保了采样相同位置始终会得到相同的目标 Query 。此外,这解耦了训练时间和测试时间中的目标 Query 数量,因为在训练时间中需要学习个 Query ,但在测试时间中它们可以在个不同的位置插值。

d2f908b5ffba3a4bbb105b96885e6377.jpeg

在原则上,也可以直接插值BEV在采样位置上,完全避免使用学习到的目标 Query 。初步实验表明,在这种情况下,学习变得极其困难,原因是BEV特征的多样性和性质。如果模型使用交叉注意力查找BEV特征,而不是从目标 Query 开始,则要容易得多。

Additional method components

损失函数。算法的随机性质使得如果以一对一的方式匹配预测和真实值,训练将会非常慢且困难。为了缓解这个问题,作者采用了多对一匹配,即许多预测与每个GTBBox匹配。这极大地加快了训练速度,但需要使用非极大值抑制(NMS)对预测进行后处理。

作者损失函数如下:

其中是预测和目标类概率之间的Focal Loss[37],是预测和GTBBox参数之间的损失。作者没有使用广义IoU损失[50]。匹配成本与损失函数相同。对于检测,BBox参数包括鸟瞰视角平面中的BBox中心、尺寸、方向和速度:

粒子性质。多对一匹配对作者方法至关重要,因为它允许模型学习每个GTBBox的梯度场或吸引力盆地。这一方面,结合随机参考点,使作者能够将这种架构视为一个粒子DETR模型,其中多个粒子(参考点)可以自由移动并围绕GTBBox吸引。通过自注意力层,它们可以像粒子群优化中的最佳位置一样进行通信。DDIM去噪步骤然后提供了改进、更新或剪枝粒子的机会,根据它们的置信度。

此外,最终在目标物体顶部停留的粒子的数量可以为作者提供关于在特定BEV位置上的感知不确定性的初步测量。作者不能将DETR模型的搜索 Token 称为动态,因为它们是固定的,不允许顺序优化。

4 Experiments

NuScenes数据集。 作者在包含近140万标注3D边界框的大规模NuScenes数据集上评估作者的方法,该数据集包含1000个场景。其中有23个语义类别,其中10个进行评估。图像的频率为2 Hz。主要的关注指标是平均精度(mAP)和更重要的NuScenes检测分数(NDS)。

对于mAP检测,只基于预测和GT中心之间的距离贪婪地分配预测给目标。有四个距离阈值 - 0.5,1,2和4米。mAP计算为100个召回百分位数平均精度,并进一步在这些4个距离阈值上平均。

在评估时间,一旦预测框和目标之间的分配完成,就可以计算各种真实阳性指标 - 翻译误差(mATE),尺度误差(mASE),BBox方向(mAOE),速度(mAVE),属性误差(mAAE) - 在匹配对上。这些指标与mAP一起加权形成NDS指标。有人声称,NDS指标在实际驾驶性能方面比mAP更为现实。

Comparison with baselines

在作者的实验中,作者将与以下最新的模型进行比较:

DiffusionDet,对它进行了最小程度的修改,并在BEV中直接使用作为作者的主要 Baseline 。

DeformableDETR,作为BEVFormer中的使用,是一种最新的确定性检测器,它已经大大超过了原始DETR模型。

基准。表1显示了作者的主要结果。作者依赖BEVFormer的编码器将图像投影到top-down视图。由于原始DiffusionDet仅适用于轴对齐的BBox,通过采用旋转ROI池化进行修改,采用旋转的BEVBBox,参数化作为。架构遵循一个六阶段RCNN解码器,其中每个阶段将BEV特征和一些旋转的BEVBBox聚合,并应用可变形卷积来模拟不同BBox之间的实例交互。每个阶段输出校正,这些校正应用于当前BBox,以产生下一阶段的BBox。总的来说,直接在BEV中应用DiffusionDet与参考模型相比具有良好性能,但与确定性的BEVFormer相比则较差。

a32aa4dc3177455544d89fcd95245a20.jpeg

位置编码。 通常在某些相对于自车辆位置的位置上,某些类别的出现更为频繁,例如,行人出现在车辆前方的情况比出现在车辆侧面的情况要少。基于ROI的架构并没有考虑BEV中BBox的绝对位置,这促使作者使用正弦位置编码,并将它们连接到每个BBox标记的聚合BEV特征中。这提高了性能,但与BEVFormer相比仍然不足。

全局特征以解决稀疏性。 ROI-based架构强调每个BBox内部的局部特征。这样的先验在像COCO这样的数据集上是足够的,但对于更小的目标,作者认为需要更多的全局特征。这促使作者考虑一个基于DETR的架构,其中作者用目标 Query 和注意力代替BBox和ROI池化。现在,每个阶段首先应用目标 Query 之间的自注意力,从而考虑它们的相对位置和内容,然后应用交叉注意力在BEV上。这种交叉注意力具有潜在的无限视角,可以为每个标记聚合比ROI架构更多的全局BEV特征。

多对一匹配。在这个阶段,尽管已经考虑了全局特征和位置,但作者发现,即使使用随机的参考点,一对一匹配时的监督信号也过于弱。因此,尝试了两种多对一匹配策略。第一种称之为-to-1简单的多对一匹配,因为它只是重复GTBBox多次,将它们堆叠在一起,然后应用线性求和分配器进行匹配。对于第二种策略,使用SimOTA近似最优传输分配,将可变数量的预测与每个目标匹配。

检测精度。 结果表明,作者的基于扩散的Particle-DETR方法实现了良好的性能,在mAP和NDS方面明显优于 Baseline DiffusionDet。更重要的是,它的性能与确定性方法如BEVFormer具有可比性。作者的生成方法实现了更高的NDS,表明一旦检测建立,预测的BBox尺寸、方向和速度平均来说更加准确。然而,与BEVFormer相比,仍然存在约1.6 mAP的微小差距。

使用静态参考的提升。随机参考允许模型学习每个GT中心周围的吸引子。但是,没有什么阻止作者使用固定参考,它们可以获得更高的精度。因此,作者进一步实验了一个设置,其中作者使用两组参考 - 一组随机来自扩散过程,另一组固定。这样,两组参考导致两组 Query  - 一组是插值在随机位置的 Query ,另一组是学习并固定的。由于解码器是共享的,联合训练可以捕获随机和固定 Query 之间的任何协同作用,从而提高两种 Query 的性能。

在测试时间,为了使 Query 数量与以前的模型可比,可以使用只有扩散 Query 或固定 Query 。使用扩散 Query ,得到作者的最终Particle-DETR模型。使用固定 Query ,得到一个增强的BEVFormer,称之为BEVFormer-Enh。

Implementation details

Particle-DETR实现很简单,并遵循BEVFormer的做法。将模型训练与BEVFormer相同数量的迭代,参数数量也相似。

c663d6263c459a045e6e9c743792ced4.jpeg

训练超参数如表3所示,可以在算法1和2中找到伪代码。

2baef5589a3200be1717dba542667b5c.jpeg a73907837d2e2faf345316ff9be8f3ea.jpeg

梯度分离。 为了进一步简化训练,为每个解码器层配备了向前看两次更新,在计算前向传播过程中的下一层参考点时,每个解码器层的参考点并不从计算图中分离。

预测过滤。 在训练时间,多对一匹配有助于学习每个GT中心周围的吸引力盆地。然而,在测试时间,它会导致许多假阳性,正如补充材料中的第C节所示。因此,作者使用NMS,并利用一个小得分阈值来过滤任何置信度低于它的预测。

径向抑制。 作者发现,像交通锥子这样的非常小的目标不会重叠,会被NMS遗漏。因此,作者引入了径向抑制来进一步过滤掉BBox。本质上,首先按置信度递减的顺序对预测进行排序。然后,对于最自信的预测,依次用它们附近BBox的加权平均值替换它们,而这些加权平均值又会被过滤掉。

$\mathbf{b}_{i}=\frac{\sum_{k}\mathbf{b}_{k}\pi_{k}}{\sum_{k}\pi_{k}},\forall k :\sqrt{(c_{x,i}-c_{x,k})^{2}+(c_{y,i}-c_{y,k})^{2}}<r.$< p=""></r.$<>

在这里,是第个BBox的中心坐标,是该BBox的置信度。对每个语义类别独立地实现径向抑制。

Additional properties

灵活性。 Particle-DETR架构允许用一个 Query 数量进行训练,但用不同的 Query 数量进行评估。此外,DDIM步数允许作者进一步权衡准确性和计算。图6表明,增加DDIM步数和粒子数都可以提高性能。使用900个参考点时,只需要一个DDIM步骤就可以在NDS上超过BEVFormer。

7b78dbeeb203ebb4b7bcbd8659050b35.jpeg

结果的随机性。 由于依赖于随机采样的初始参考点,作者的方法的结果是随机的。表2显示了在10次测试运行中的统计数据。作者注意到,性能在各次运行中非常一致。

49675757cff4007241b5d747f181116c.jpeg

Qualitative study

在这里,对作者的预测和BEVFormer的预测进行了定性比较。总体上,由于扩散过程导致的更高NDS使得作者的检测在位置、大小和方向上更加精确,这对非常小的目标(例如交通锥子)在汽车附近特别有益。在某些场景中,作者的方法甚至可以更早、更自信地识别出部分被遮挡的目标,如图7所示。

ec0fa22a7d3c360c2c1d7bdae6ebf89c.jpeg

常见于模型在估计大型物体的尺寸(如公交车和卡车)时存在准确估计的困难。这是因为它们大大遮挡了摄像机的视野,使得估计物体结束的位置变得困难。作者注意到,在某些场景中,作者的方法在这方面显著改善。补充材料中可以找到更多的视觉化和分析。

5 Discussion

生成模型的精度。 与文本到图像任务不同,学习给定BEV特征的边界框分布是一个非常不同的任务。即使对于非常详细的文本提示,也有许多相应的有效图像。改变像素值不会显著改变描述。因此,文本到图像任务可以容忍生成样本中大量变化。然而,目标检测需要输出精度。因此,调整 Query 数量,作者发现在mAP方面与确定性方法相比存在微小性能差距是自然的,因为随机参考输入始终会在输出上诱导分布。

不确定性。 学习一个分布在一个BBox上的边界框可以提供一种初步理解它们不确定性的方法。不幸的是,这种方法可能会将由于估计模型参数引起的认知不确定性与由于BBox本身的随机性引起的 aleatoric 不确定性混合在一起。补充材料中提供了估计的BBox分布的 Heatmap ,以及进一步的讨论。

6 Conclusion

在这项工作中探索了基于扩散的生成模型在BEV中的3D目标检测。作者发现无根据地使用以前的方法会导致性能差距。为了缩小这个差距,采用了基于 Transformer 的架构和特定的 Query 插值模块,以帮助模型在存在扩散的情况下学习位置信息。将扩散过程形式化为扩散粒子,这产生了基于粒子方法的独特解释。作者的方法在以前生成方法的基础上有了很大的改进,并达到了与强确定性方法相当的结果。

Appendix A Label Ambiguity

标签歧义会在参考点采样时出现匹配预测和目标之间的不确定性。图4给出了使用总距离匹配的示例。

bc919f98f641ebe79fb3834e7509f351.jpeg

在图8中还提供了一个使用索引匹配的示例,其中存在标签歧义。作者假设存在个目标和个预测,其中预测与目标匹配。

当使用索引匹配时,假设参考具有BEV坐标。模型要么查找处的BEV特征,要么插值 Query 并生成一个与匹配的预测。但是,如果在位置采样,则预测相同但目标变为。这使模型困惑,因为在处的相同特征可以有不同的目标。

为了评估可能由歧义目标产生的影响,作者研究了一个简单的玩具任务。作者固定一个单个随机图像,并构建一个具有以下前向传播的网络:

首先,图像经过两个卷积层,保持输出尺寸与初始尺寸相同。

然后,作者查找,即插值,一些参考点的特征作为额外输入。

处理后的特征经过两个线性层后,返回新的2D位置。

因此,作者的网络接受一个图像和一些参考点作为输入,并返回新的2D位置作为输出。损失函数是预测与固定目标之间的损失。实验表明,当作者随机采样输入参考点并且只有很少的参考点时,产生的标签歧义是限制性的,并防止网络过拟合,即使是在单个图像上。这是当随机参考点数量少于或等于目标数量的情况。在图4中,有10个目标。只有10个随机参考点时,模型不会收敛,即使让它无限运行。

如果有更多的参考点,模型确实可以收敛,收敛速度取决于参考点的数量。这是因为只有某些预测用于损失函数,使得预测更局部化到它们的参考点开始的位置。这种行为在参考点在训练迭代中固定时不存在,在这种情况下,模型总是收敛到零损失,无论它是否找到所有目标还是只找到一些目标。

在一个确定性的设置中,更多的参考点只会加快训练。但是,当它们是随机的时,为了收敛,需要有大量的参考点。

Appendix B Implementation

在这里,作者提供了关于实现和实验的额外信息。表3包含了训练超参数,而算法1和2提供了PyTorch类似的伪代码,用于训练和测试逻辑。大多数函数名称借用了。

对于实现,作者的代码库基于BEVFormer。在8个NVIDIA A100 GPU上训练所有模型24个周期在NuScenes数据集上,而评估始终在单个GPU上进行。在训练和测试时,批大小都设置为1。

扩散框更新。 原始的DiffusionDet[9]仅适用于轴对齐的BBox。对于基准,作者重新实现并修改它以使用旋转的BBox。受到[64]的启发,解码器每个阶段输出,这些元素应用到输入BBox上,以产生当前阶段的更新框。具体步骤如下:

GIoU损失。与原始的DiffusionDet不同,在作者的实现中,作者没有使用GIoU损失,因为它的旋转BBox的支持反向传播实现并不简单。作者留待未来研究如何使用类似的度量作为损失。

SimOTA。在评估simOTA匹配策略时,作者移除了DiffusionDet中存在的成本矩阵遮挡。在那里,为那些中心距离目标BBox不够近或位于目标BBox内的预测增加额外成本,这实际上阻止了这些预测被匹配。在作者的设置中,这种遮挡引入了大量的不稳定性。因此,作者使用原始成本矩阵的simOTA,其中所有预测都被认为是所有目标的潜在匹配。

Appendix C Additional Experiments

在这里,作者提供了额外的实验结果。所有结果和图表都来自NuScenes验证数据集,除非另有说明。

确定性和随机参考。 作者的Particle-DETR在训练后提供了丰富的机会来调整测试时间性能。一旦模型被训练,就可以自由更改控制推理行为的超参数。首先,评估两个参考集的联合训练,固定和随机,如何影响性能。一旦从这种联合设置中得到模型,可以用两种参考集或其中一个来评估。表6显示了使用两种参考集进行评估时的性能。性能在统计上具有显著性,并优于BEVFormer在所有指标上。

9d066483660e99f67ed0f9eb5c9e0c3a.jpeg

作者分析每个参考集如何贡献结果。为此,作者观察解码器层中的自注意力值。在评估两个 Query 集时,第一个解码器层的固定 Query 大约94%的时间用于关注其他固定 Query ,而与随机参考相关的扩散 Query (与固定参考相关)花费了82.5%的时间关注固定 Query 。这种不平衡在后续解码器层中得到纠正。特别是,在最后一个解码器层中,两个 Query 集分别花费约50%的时间关注另一个 Query 集。

当评估使用静态和随机参考的最终模型时,发现增加DDIM步骤或随机 Query 数量对性能没有显著影响,可能是因为对应静态参考的 Query 更重要。这一点在表4中得到了强调。mAP和NDS结果比只使用静态 Query 略高,表明随机参考对应的额外 Query 可以提高性能。

0e81916dcc30b82ac7665430aecbc2b7.jpeg

如果作者只使用随机参考,mAP和NDS指标自然会更低,因为建议的校正都应该相对于当前参考位置,而这是随机的。使用额外的DDIM步骤或额外的参考之间存在明显的权衡,以及性能。表5和7显示了带有和没有径向抑制的情况。作者强调,在有足够的随机参考的情况下,Particle-DETR确实可以击败BEVFormer在mAP上。在NDS上,只需要900个参考和单个DDIM步骤就可以击败它。

bd0a456825b2bec5f41ca181a3a84ccc.jpeg

过滤。 为了进一步说明为什么需要过滤,由于多对一匹配导致多个预测堆叠在一起,作者发现使用NMS是必要的。最好的阈值是0.1,作者在表8中还结合了基于置信度的过滤。

a8be9814ec3b8a2d93dcf8df9b1d9a7c.jpeg

作者用径向抑制替换了一个置信度较高的预测框,用球形邻域内的预测加权平均值。作者调整这个邻域的半径。对于非常小的值,不进行过滤。对于较大的值,来自多个不同物体的预测被过滤。半径的最优值约为0.5米,如表9所示。邻域半径和NMS的联合调整的数据可以在表10中找到。

25c3028734ab7d1a85627967c436ff24.jpeg

参考重采样。 参考重采样是在DDIM步骤之间重采样搜索标记,就像DiffusionDet中所做的那样。作者尝试了不同的策略,但发现[9]中的基本策略最适合,如表11所示。因此,在每个DDIM步骤之间,只重采样对应于不太确信预测的参考。尝试的其他策略包括在确信预测附近重采样,不应用DDIM步骤的重采样,或者完全不进行重采样。

eb1f230738d7574a8f49c933da7f1aad.jpeg

模型特性。BEVFormer-Enh模型与BEVFormer具有相同的参数数量、FLOPS和FPS。Particle-DETR与之类似,但可以根据运行的DDIM步骤使用更多的计算资源。Query 插值的计算仅取决于参考点的数量,而与DDIM步骤无关。

Appendix D Qualitative Analysis

在这里提供了预测的额外可视化。图9显示了一个示例,其中Particle-DETR仅使用扩散 Query 来检测非常小的物体,这些物体被BEVFormer遗漏了。实际上,交通锥子在0.5米处的AP高于0.34,而BEVFormer的AP为0.28。对于汽车(+1 AP点)、自行车(+2.4)、摩托车(+2.8)、行人(+1.8)和障碍物(+9 AP点)等,也可以观察到类似的检测增强。

af8149ea5854acc2160ee7dbca3d81bd.jpeg

总的来说,增加的NDS主要源于更准确的翻译、方向和速度。在图13中展示了作者的Particle-DETR将预测投影到摄像机图像上。突出了各种驾驶条件,包括明亮的阳光、雨天 - 雨滴在图像中造成局部模糊,以及夜间 - 由于曝光时间较短,像素强度噪声存在。在这所有这些情况下,作者的方法都能产生合理准确的预测,同时是一个完全生成性的模型。

378cde0ab250a23e2d1444e8b419bf15.jpeg

吸引力盆地。 作者在图12中可视化了起始参考的转换。一般来说,每个GT都会吸引起始参考。这种“梯度流”是由模型学习的,而多对一匹配是它存在的必要条件。吸引力盆地被良好地定位和分离。作者曾考虑在预测和起始参考之间添加正则化来显式地使预测更局部化,但这种局部化属性似乎会从训练设置中自然发展。

078fddda8a05342135d7de9122449a68.jpeg

BEV由多个摄像头视图拼接而成。从逻辑上讲,禁止参考点从 ego-vehicle 的同一侧开始细化到另一侧是理想的,因为从一侧的视图无法提供关于相反视图的信息。Particle-DETR 的吸引力性质在很大程度上满足了这一约束。

由于起点的特征与任何可见场景元素都不对应,因此位于问题区域的参考点(如在墙后或在路边外)被推进BEV的两侧。相应的预测的置信度接近于零。

Appendix E Additional Discussion

标准的DETR模型是全确定的。要得到预测的不确定性估计,通常需要显式修改模型架构,例如通过添加额外的输出来代替标准差。在这里,作者的生成式Particle-DETR具有优势,因为一种基本的不确定性形式可以方便地获得。

首先,作者考虑基准BEVFormer,并使用核密度估计计算预测框中心的 Heatmap ,如图11所示。图11中每个预测框中心的密度(和颜色)主要由该点距离附近预测的接近程度决定。第一张 Heatmap 仅显示预测框中心的密度,即使不考虑每个预测的置信度。由于BEVFormer使用一对一匹配,大多数预测相当分散,只有少数被吸引到同一个GTBBox。如果作者按置信度对预测进行加权,作者得到第三张 Heatmap ,这更合理。

b36ec55b9fce9c0fe5cb6cef9ffcf740.jpeg

现在,将同样的程序应用于Particle-DETR。在第二张 Heatmap 中,仅绘制预测框中心的密度,在应用NMS之前。由于在训练中存在多对一匹配,预测堆叠在一起,这防止密度过于分散,并使其相对集中在真实物体上。如果进一步考虑预测置信度作为每个点的一个权重,作者得到第四张 Heatmap ,其中密度更好地定位。

因此,预测的形成本身包含信息。尽管在目标检测中作者只使用几个预测,但对于不确定性估计,许多预测都是有益的。作者将这个问题留待未来的工作来研究如何以更正式的方式利用这个机会。

参考

[1].Diffusion-Based Particle-DETR for BEV Perception

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

a22f9277dedd949a9cf46d5afd14744b.png 视频官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

近2400人的交流社区,涉及30+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

93d45cc6cdf82aff2a23f33bff15a209.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

5ecf59845f5fac56cdcb41cb4a3fce7f.jpeg

④【自动驾驶之心】平台矩阵,欢迎联系我们!

71feea40a0b12a798ac23681e446eecd.jpeg

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
BEV+Transformer是一种用于自动驾驶领域的感知模型,用于对环境进行三维感知目标检测BEV代表Bird's Eye View(俯视图),是一种将环境投影到鸟瞰视角的方法,可以提供更全面的环境信息。Transformer是一种基于自注意力机制的神经网络模型,广泛应用于自然语言处理领域,但在计算机视觉领域也取得了很好的效果。 BEV+Transformer模型的工作流程如下: 1. 输入数据:BEV+Transformer模型接收来自车辆传感器(如激光雷达、摄像头等)的原始数据,通常是点云数据或图像序列。 2. BEV投影:将原始数据投影到鸟瞰视角,得到一个二维的俯视图。 3. 特征提取:使用卷积神经网络(CNN)对俯视图进行特征提取,得到高维特征表示。 4. Transformer编码器:将特征表示输入到Transformer编码器中,利用自注意力机制对特征进行建模和整合,捕捉不同目标之间的关系和上下文信息。 5. 目标检测:在Transformer编码器的输出上,使用一些额外的网络层进行目标检测,识别出环境中的不同目标(如车辆、行人等)及其位置。 6. 输出结果:输出目标检测结果,包括目标的类别和位置信息。 BEV+Transformer模型的优势在于能够充分利用三维环境信息,并且通过Transformer的自注意力机制可以捕捉目标之间的复杂关系。这种模型在自动驾驶领域中具有很高的应用潜力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值