BEVFormer v2: Adapting Modern Image Backbones to Bird’s-Eye-View Recognition via Perspective Supervi

BEVFormer v2: Adapting Modern Image Backbones to Bird’s-Eye-View Recognition via Perspective Supervision 的精读

一、abstact

我们提出了一种新颖的鸟瞰(BEV)检测器,采用透视监督,能够更快地收敛,并更适合现代图像骨干网络。现有的领先鸟瞰检测器通常与特定的深度预训练骨干网络(如VoVNet)相关联,这限制了繁荣的图像骨干网络与鸟瞰检测器之间的协同效应。为了解决这一限制,我们优先考虑通过引入透视视图监督来简化鸟瞰检测器的优化。为此,我们提出了一个两阶段的鸟瞰检测器,其中来自透视头的候选框被馈送到鸟瞰头进行最终预测。为了评估我们模型的有效性,我们进行了大量的消融研究,重点关注监督形式和所提出的检测器的普遍性。我们的方法得到了广泛验证,涵盖了传统和现代的图像骨干网络,并在大规模nuScenes数据集上取得了新的最先进结果。代码将很快发布。

二、Introduction

鸟瞰识别模型吸引了自动驾驶领域的关注,因为它们可以自然地将多个传感器的部分原始观测整合到统一的整体3D输出空间中。典型的鸟瞰模型建立在图像骨干网络之上,后跟一个视图转换模块,将透视图像特征转换为鸟瞰特征,然后进一步由鸟瞰特征编码器和一些任务特定的头部进行处理。虽然在设计视图转换模块和将越来越多的下游任务整合到新的识别框架中付出了很多努力,但对鸟瞰模型中图像骨干网络的研究却受到了较少的关注。作为一个前沿和高度需求的领域,将现代图像骨干网络引入自动驾驶是很自然的选择。令人惊讶的是,研究界选择坚持使用VoVNet来享受其大规模的深度预训练。在这项工作中,我们专注于释放现代图像特征提取器的全部潜力,以解锁未来研究者在这一领域探索更好图像骨干网络设计的大门。然而,仅仅使用这些现代图像骨干网络而没有适当的预训练,无法产生令人满意的结果。为了应对将现代图像骨干网络调整为鸟瞰识别中的困难,我们引入了透视监督到BEVFormer中,即从透视视图任务中产生额外的监督信号,并直接应用于骨干网络。它引导骨干网络学习在2D识别任务中缺失的3D知识,并克服了鸟瞰检测器的复杂性,极大地促进了模型的优化。具体地,我们在骨干网络之上构建了一个透视3D检测头,它以图像特征作为输入,并直接预测目标对象的3D边界框和类标签。该透视头的损失,即透视损失,被添加到由BEV头产生的原始损失(BEV损失)中,作为辅助检测损失。这两个检测头与它们对应的损失项共同训练。此外,我们发现将两个检测头组合成一个两阶段的鸟瞰检测器(BEVFormer v2)是很自然的。由于透视头是完整的,它可以在透视视图中生成高质量的目标提议,我们将其用作第一阶段的提议。我们将它们编码成对象查询,并将它们与原始的BEVFormer中的可学习对象组合在一起,形成混合对象查询,然后将它们馈送到第二阶段的检测头生成最终的预测。我们进行了大量的实验来确认我们提出的透视监督的有效性和必要性。透视损失有助于骨干网络的调整,提高了检测性能并加快了模型的收敛速度。而在没有这种监督的情况下,即使使用更长的训练计划,模型也无法取得可比的结果。因此,我们成功地将现代图像骨干网络调整到了BEV模型中,在nuScenes数据集的测试集上取得了63.4%的NDS。我们的贡献可以总结如下:

  • 我们指出透视监督是将一般的2D图像骨干网络调整到BEV模型中的关键。我们通过透视视图中的检测损失明确地添加了这种监督。
  • 我们提出了一种新颖的两阶段鸟瞰检测器,BEVFormer v2。它由一个透视3D和一个BEV检测头组成,前者的提议与后者的对象查询结合起来。
  • 我们通过将其与最新开发的图像骨干网络结合起来,实现了在nuScenes数据集上的先进结果的显著改进,突出了我们方法的有效性。

三、 Related Works

3.1 BEV 3D Object Detector

鸟瞰(BEV)物体检测近年来吸引了越来越多的关注,这主要归功于它在自动驾驶系统中取得的巨大成功。早期的工作包括OFT、Pseudo LiDAR和VPN等,它们探讨了如何将透视特征转换为鸟瞰特征,但要么只针对单个摄像头,要么在较少知名任务上进行。OFT首次尝试了单眼3D物体检测的2D图像特征到3D BEV特征的转换。Pseudo LiDAR通过单眼深度估计和相机内参创建了伪点云,并随后在BEV空间中进行处理。VPN是第一个将多视角摄像头输入融合到顶视特征图中进行语义分割的方法。现代方法能够方便地整合来自不同透视视角传感器的特征,通过2D-3D视图转换提供支持。LSS通过在池化BEV柱特征时引入潜在深度分布扩展了OFT,并且相比OFT的单个视角,LSS覆盖了六个周围图像。与LSS中的2D到3D转换或OFT中的3D到2D投影不同,CVT利用了摄像头感知的位置编码和密集交叉注意力来桥接透视视图和BEV视图特征。PETR提出了一种无需显式BEV特征构建的方法。透视特征图与3D位置嵌入特征图逐元素地融合,然后应用DETR风格的解码器进行目标检测。BEVFormer利用了空间交叉注意力进行视图转换,利用了时间自注意力进行时间特征融合。BEVFormer完全基于Transformer的结构使得其BEV特征比其他方法更加多样化,更容易支持非均匀和非规则的采样网格。此外,正如SimpleBEV所展示的那样,多尺度可变形注意力在所有提升策略中表现出色。因此,我们选择基于BEVFormer来构建我们的检测器,以充分利用前述的优势。除了已发布的工作外,由于该领域的普及,还有许多并行工作。BEVDet为训练引入了丰富的图像级别和BEV级别的增强。BEVStereo和STS都采用了一种时间立体范式以实现更好的深度估计。PolarFormer提出了一种非笛卡尔3D网格设置。SimpleBEV比较了不同的2D-3D提升方法。与主要探索检测器设计的现有工作不同,我们专注于将现代图像骨干网络调整到BEV识别模型中。

3.2 Auxiliary Loss in Camera 3D Object Detection

在单目3D物体检测中,辅助损失是普遍存在的,因为大多数方法都建立在2D检测器(如RetinaNet和FCOS)之上。但这些辅助损失很少为2D监督赋予了明确的含义。MonoCon通过利用多达5种不同的2D监督来充分利用2D辅助。至于鸟瞰检测器,BEVDepth利用LiDAR点云监督其中间深度网络。MV-FCOS3D++为训练其图像骨干网络引入了透视监督,但检测器本身仅由BEV损失进行监督。SimMOD使用2D辅助损失来进行其单目提议头部的训练。与先前的方法不同,我们的方法采用了端到端的透视监督方法,而不使用额外的数据,如LiDAR点云。

注解:单目3D检测,顾名思义,就是只使用一个摄像头采集图像数据,并将图像作为输入送入模型进,为每一个感兴趣的目标预测 3D 框及类别标签。

3.3 Two-stage 3D Object Detector

虽然两阶段检测器在基于LiDAR的3D物体检测中很常见,但它们在基于摄像头的3D检测中的应用却知之甚少。MonoDIS使用RoIAlign从2D框中提取图像特征,并随后回归3D框。SimMOD采用了一个单目3D头部来生成提议,以及一个DETR3D头部用于最终的检测。然而,在两个阶段中都使用来自透视骨干网络的相同特征对第二阶段头部没有信息增益。我们认为这是两阶段检测器在基于摄像头的3D检测中远不如基于LiDAR的3D检测中流行的主要原因。相反,我们的两阶段检测器利用来自透视和鸟瞰视图的特征,因此在图像和鸟瞰空间中都具有信息。

四、BEVFormer v2

将现代2D图像骨干网络调整为BEV识别模型,而无需繁琐的深度预训练,可以为下游自动驾驶任务开启许多可能性。在这项工作中,我们提出了BEVFormer v2,一个两阶段的BEV检测器,它结合了BEV和透视监督,以便轻松地在BEV检测中采用图像骨干网络。

4.1 Overall Architecture

下图为整体架构图:
在这里插入图片描述
1.图像骨架(Image Backbone):这一部分的功能是从多视角图像中生成特征。自动驾驶的应用场景中,这些图像可能来自车辆周围的多个摄像头,图像骨架通过深度神经网络提取这些图像的重要特征,为后续的3D对象检测提供基础数据。

2.透视3D头(Perspective 3D Head):这一模块基于上一步骨架提取的特征,进行透视预测。这些预测随后被编码为对象查询(object queries),这些查询用于后续的BEV(鸟瞰图)头处理。

3.BEV头(BEV Head):具有编码器-解码器结构。编码器部分通过聚合多视角图像特征来生成BEV特征,这意味着它能够将来自不同摄像头的信息合并,创建一个从上方视角看的3D空间表示。紧接着,时态编码器(temporal encoder)会收集历史BEV特征,这对于理解对象如何随时间移动至关重要。解码器则以混合对象查询为输入,基于BEV特征做出最终的BEV预测。

4.训练与损失函数(Training and Loss Terms):模型的训练涉及两个检测头的两个损失项,分别是Lpers和Lbev。这意味着模型在训练过程中会优化这两个损失项,以提高透视预测和BEV预测的准确性。

整个BEVFormer v2模型通过这样的结构实现了高效的多视角3D对象检测,尤其适合于需要准确空间定位和对象识别的场景,如自动驾驶车辆的环境感知。这种模型能够利用时间和空间信息,提高对动态环境的理解能力。

4.2 Perspective Supervision

下图为Perspective Supervision 和 BEV Supervision之间的区别:
在这里插入图片描述
从上图中可以看出:透明检测的监督信号比较密集,并且直接来自图像特征;BEV的特征比较稀疏并且不直接。

图2所描述的是透视监督(a)与BEV监督(B)的比较。这里所说的“透视监督”与“BEV监督”是指在训练深度学习模型进行3D对象检测时所用的两种不同监督信号的方法。接下来,我将进一步解释这两种监督方法的区别:

1.透视监督(Perspective Supervision):

  • 密集且直接:透视监督的信号对图像特征是密集且直接的。这意味着在透视图(即普通的2D图像)中,每个像素点都可能有对应的标签或监督信息。在这种情况下,模型被训练以直接从图像像素特征中预测对象的位置、形状等属性。这种方法可以更精确地定位图像中的对象,因为它利用了图像的所有细节信息。

2.BEV监督(BEV Supervision):

  • 稀疏且间接:与透视监督不同,BEV监督的信号对于图像特征来说是稀疏且间接的。BEV(鸟瞰图)监督不是针对每个像素点的,而是针对从顶部视角映射的3D空间中的特定位置。在这种情况下,监督信号可能仅限于道路上的车辆、行人等对象的位置,而不涉及图像的每个细节。这种方法强调了空间布局和对象之间关系的理解,而不是像素级的细节。

比较:

  • 透视监督更适合于需要精确像素级别预测的应用,如图像分割、精确对象识别等。
  • BEV监督则更适用于需要理解场景的3D结构和对象间空间关系的应用,如自动驾驶中的环境感知、路径规划等。

在实际应用中,选择哪种监督方法取决于具体任务的需求和目标。对于自动驾驶车辆的感知系统而言,BEV监督提供了更加符合实际驾驶需求的空间信息,而透视监督则能提供更为细致的图像特征识别。

那么,我们为什么要加入透视的监督信息呢?

  1. BEV模型的基本概念:
  • BEV模型主要处理网格形状特征,这些特征附着在BEV平面上。每个网格综合了多视角图像对应2D像素处的3D信息。模型基于BEV特征预测目标对象的3D边界框,这种在BEV特征上施加的监督称为BEV监督。
  1. BEVformer的工作机制:
  • 作为一个例子,BEVformer使用编码器-解码器结构来生成和利用BEV特征。编码器为BEV平面上的每个网格单元分配一组3D参考点,并将它们投影到多视角图像上作为2D参考点。之后,它围绕2D参考点采样图像特征,并利用空间交叉注意力将这些特征聚合到BEV特征中。解码器是一个可变形的DETR(Deformable DETR)头,它使用一小组固定的对象查询在BEV坐标中预测3D边界框。
  1. BEV监督的两个主要问题:
  • 隐式监督:与图像特征相比,监督是隐式的。损失直接应用于BEV特征,但在3D到2D的投影和注意力采样图像特征之后,监督变得间接。这意味着,尽管直接在BEV特征上应用损失,但由于3D到2D的转换和采样过程,这种监督对原始图像特征的影响变得不直接。
  • 稀疏监督:对图像特征的监督是稀疏的。只有少数被对象查询关注的BEV网格参与到损失计算中。因此,只有围绕这些网格的2D参考点附近的稀疏像素获得监督信号。这表明在图像特征层面,监督信号的分布是不均匀的,导致模型可能无法充分学习到所有相关特征。

GPT
在训练过程中,出现了一种不一致性,即BEV检测头依赖于图像特征中包含的3D信息,但它为如何对这种信息进行编码的骨架网络提供的指导不足。以前的BEV方法并没有严重受到这种不一致性的影响,他们甚至可能没有意识到这个问题。这是因为他们的骨架网络要么规模相对较小,要么已经在具有单眼检测头的3D检测任务上进行了预训练。与BEV头相比,透视3D头在图像特征上进行逐像素预测,为适应2D图像骨架提供了更丰富的监督信号。我们将施加在图像特征上的这种监督定义为透视监督。如图2所示,与BEV监督不同,透视检测损失直接且密集地应用于图像特征。我们假设透视监督显式地指导骨架网络感知3D场景并提取有用信息,例如,对象的深度和方向,克服BEV监督的缺点,因此在用现代图像骨架训练BEV模型时是必不可少的。

文章接下来强调了在训练BEV模型时面临的一项主要挑战:即如何有效地从图像特征中提取和编码3D信息。这种挑战来源于BEV检测头图像骨架之间存在的不一致性,即骨架需要从图像特征中学习到的3D信息并不总是通过BEV监督直接和充分地提供。透视监督通过在每个像素上直接施加损失,提供了一种更为丰富和直接的方式来指导骨架网络学习 3D场景的 深度感知和特征提取,这对于提高BEV模型的性能至关重要。

这种分析揭示了在设计和训练用于3D场景理解的深度学习模型时,选择合适的监督信号是多么重要。透视监督提供了一种有效的解决方案,能够帮助模型更好地理解3D信息,特别是在使用现代图像骨架网络进行BEV检测时。此外,这也表明了在进行BEV检测时,需要考虑如何改进模型架构和训练策略,以确保从多视角图像中有效提取和利用3D信息。

4.3 Perspective Loss

在这里插入图片描述
上图为损失函数的定义,损失函数主要包括了两个组成部分,

基于前面的分析,透视监督(perspective supervision)对于优化鸟瞰视图(BEV)模型至关重要。在BEVformer v2中,通过辅助的透视损失(perspective loss)引入了透视监督。具体来说,一个基于骨架模型(backbone)的透视3D检测头被构建用于在透视视图中检测目标对象。这采用了一个类似FCOS3D的检测头,预测3D边界框的中心位置、大小、方向和投影的中心性。这个检测头的损失,标记为透视损失(L_{pers}),作为BEV损失(L_{bev})的补充,有助于优化骨架模型。整个模型通过一个总目标进行训练。

这种方法的引入有几个关键好处:

  1. 提供更丰富的监督信号:透视3D检测头对图像特征进行逐像素预测,与BEV监督相比,提供了更为丰富的监督信号。这有助于模型更好地适应2D图像骨架,从而更准确地理解3D场景。

  2. 指导骨架编码3D信息:透视监督明确指导骨架感知3D场景并提取有用信息,例如对象的深度和方向。这克服了BEV监督的不足,因为BEV监督对于骨架如何编码这些3D信息提供的指导不足。

  3. 优化模型性能:通过结合透视损失和BEV损失,可以更全面地优化模型,不仅仅是在BEV预测方面,也在整体3D场景理解能力上。这种综合的监督方式有助于提高模型对复杂场景的识别和理解能力。

总的来说,透视监督在训练现代图像骨架的BEV模型时发挥着至关重要的作用。它通过提供直接且丰富的监督信号,有效地指导骨架模型学习如何感知和解码3D信息,从而提高了整个模型的性能和准确性。这种方法的成功实施,显示了深度学习模型设计中监督信号类型和质量的重要性,以及它们对模型性能的直接影响。

4.4 Ravamped Temporal Encoder

这一部分主要对Temporal Rncoder 进行修改与更新。

BEVFormer v2通过采用简单的变形(warp)和串联(concatenate)策略来改进其时序编码器,这是为了更有效地利用长期时序信息。在这种设计中,通过双线性变形将不同帧的BEV特征映射到当前帧,并通过沿通道维度的串联以及使用残差块进行维度缩减,从而提升了模型对长期时序信息的利用效率。此外,通过增加采样间隔而不是仅仅增加历史BEV特征的数量,这种方法既保持了与原始设计相似的计算复杂度,也为未来的离线3D检测设置中使用未来的BEV特征提供了可能。

4.5 Two-stage BEV Detector

这种两阶段BEV检测器首先利用视角(perspective)头部的预测结果,通过后处理筛选,并将这些预测融入到DETR解码器的对象查询中,形成一个两阶段的处理流程。这样的设计旨在解决随机初始化的嵌入(embeddings)需要很长时间来学习目标对象可能位于的适当位置的问题。通过将视角头部的预测结果作为候选位置融入对象查询,可以提高BEV头部在第二阶段捕获目标对象的准确性和效率。

4.6 Decoder with Hybrid Object Queries

下图为混合对象查询的解码器:
在这里插入图片描述
由上图可以得知:在BEVFromer v2中,BEV head的解码器的构造。首先第一阶段的信号的投影中心被用作第二阶段每个图像的参考点,并且它们混入了每一个dataset学到的内容查询和位置嵌入作为混合对象查询。

本段落详细介绍了BEVFormer v2在其BEV头部的解码器设计上如何基于可变形DETR(Deformable DETR)对BEVFormer的初代版本进行改进。通过这些改进,BEVFormer v2能够更有效地将第一阶段的提议融合成第二阶段的目标查询,从而提高目标检测的准确性和效率。

主要改进点
解码器结构:BEVFormer v2的解码器基于可变形DETR解码器改进,采用堆叠的自注意力和交叉注意力层。这种结构有利于更有效地处理BEV(鸟瞰图)特征和查询。

交叉注意力层:使用可变形注意力模块,输入包括内容查询(产生采样偏移和注意力权重)、参考点(作为每个查询的采样参考的2D点)和值特征(被关注的BEV特征)。

内容查询与参考点:与原始BEVFormer相比,v2版本通过后处理从透视头获得的提议中选择部分,将选中提议的BEV平面上的投影框中心作为每张图片的参考点,并与基于位置嵌入生成的数据集级参考点结合。这样的设计使解码器更容易检测到目标对象。

应对遮挡和视野边界问题:为了避免因遮挡或对象出现在相邻视图的边界而未被透视头检测到,BEVFormer v2保留了原始的数据集级参考点,通过学习空间先验来捕获这部分对象。

五、Experiments

5.1 Dataset and Metrics

nuScenes 3D检测基准是为自动驾驶系统的开发和评估而设计的综合数据集,特别关注于3D对象检测领域。本节详细介绍了数据集的组成、训练和评估用途的分配,以及用于评估检测性能的指标。
数据集组成
nuScenes 3D检测基准包含1000个多模态视频,每个视频大约20秒长。这些视频以2Hz的频率进行注释,为训练和评估3D检测算法提供了丰富的数据集。数据集通过六个摄像头的图像捕捉了全360度的视场,确保了对车辆周围环境的全面覆盖。
数据分割
为了有效地训练和验证3D检测模型,数据集被分为以下几部分:
训练集:700个视频,作为模型训练的主要资源。
验证集:150个视频,用于微调模型参数和进行初步评估。
测试集:150个视频,保留用于最终模型评估,以确保性能评估的无偏性。
检测任务和注释
nuScenes 3D检测任务的核心包括140万个注释的3D边界框,涵盖10个对象类别。这些注释为训练和评估检测模型提供了必要的真实标准。
评估指标
基准采用了几种指标,以全面评估3D检测性能:

(1)平均精度均值(mAP):基于地面平面上中心距离的四个不同阈值计算。该指标评估了对象检测的准确性,不考虑对象类别。

(2)真正例指标:一组五个指标,旨在衡量检测结果中特定错误类型:

  • 平均位移误差(ATE):评估对象位置估计的错误。
  • 平均尺度误差(ASE):评估对象尺寸估计的错误。
  • 平均方向误差(AOE):评估对象方向估计的错误。
  • 平均速度误差(AVE):评估对象速度估计的错误。
  • 平均属性误差(AAE):评估对象属性估计的错误。

此外,还定义了一个nuScenes检测分数(NDS),通过将检测准确性(mAP)与五个真正例指标结合起来,以全面评估检测性能。

5.2 Experimental Settings

在这段描述中,作者详细介绍了进行实验时使用的多种类型的骨干网络,包括ResNet、DLA、VoVNet和InternImage,以及实验的一些关键设置和采用的方法。以下是对这段文本的详细解读:

实验设置和骨干网络
骨干网络
  • ResNetDLAVoVNetInternImage:这些骨干网络在计算机视觉领域中被广泛应用,尤其是在图像识别和目标检测任务中。每种网络都有其独特的架构和特点,旨在提高特征提取的效率和准确性。
初始化
  • 所有骨干网络均使用在COCO数据集上预训练的2D检测任务的检查点进行初始化。这种预训练方法可以帮助网络在特定任务上更快地收敛,提高最终模型的性能。
BEV检测头和实验细节
BEV检测头
  • 除了所做的修改外,作者遵循BEVFormer的默认设置构建BEV检测头。这说明实验基于BEVFormer的基础架构进行,但对某些部分进行了自定义修改以适应实验的特定需求。
时间编码器
  • 在表1和表6中,BEV头利用了新的时间编码器来处理时间信息。这表明,在这些实验中,模型能够利用序列中的时间信息来提高检测性能。
  • 对于其他实验,采用了仅使用当前帧的单帧版本,类似于BEVFormer-S。这种设置允许比较在没有额外时间信息的情况下模型的性能。
透视3D检测头
  • 对于透视3D检测头,采用了在DD3D中实现的具有相机感知深度参数化的方法。这种方法考虑了相机的特定属性,以提高深度估计的准确性。
优化器和学习率
  • 使用AdamW优化器,并将基础学习率设置为4e-4。AdamW是一种常用的优化算法,适用于深度学习任务,特别是在处理稀疏梯度或权重衰减问题时表现良好。
损失权重
  • 视角损失和BEV损失的权重均设置为λbev = λpers = 1。这一设置表明两种损失在模型训练中的重要性被视为相等,旨在同时优化模型在BEV检测和透视3D检测方面的性能。

这段描述提供了实验设计的重要细节,展示了作者如何通过结合不同的骨干网络、利用预训练模型、采用先进的检测头设计和优化方法,以及调整损失函数权重来优化3D检测任务的性能。

5.3 Benchmark Results

这段文字描述了一项关于BEV(鸟瞰图)检测器的比较研究,特别是将提出的BEVFormer v2与现有的最先进的BEV检测器进行对比,包括BEVFormer、PolarFormer、PETRv2、BEVDepth和BEVStereo。下面是对这段文本的详细分析:

BEV检测器性能比较
实验设置
  • 实验在nuScenes测试集上报告了3D对象检测结果。
  • 比较的BEV检测器包括BEVFormer、PolarFormer、PETRv2、BEVDepth和BEVStereo。
骨干网络和预训练
  • BEVFormer、PolarFormer、BEVDepth和BEVStereo使用的V2-99骨干网络在深度估计任务上进行了预训练,并使用额外数据,然后在nuScenes数据集上通过DD3D进行微调。
  • 与此相反,使用的InternImage骨干网络以COCO检测任务的检查点初始化,没有进行任何3D预训练。
BEVFormer v2的性能
  • BEVFormer v2采用InternImage-B骨干网络,在所有现有方法中表现最佳,这表明采用透视监督后,不再需要在单目3D任务上预训练的骨干网络。
  • BEVFormer v2配备InternImage-XL在nuScenes摄像头3D对象检测排行榜上超越所有参赛作品,达到63.4%的NDS(nuScenes检测分数)和55.6%的mAP(平均精度均值),比排名第二的BEVStereo高出2.4%的NDS和3.1%的mAP。
结论

这一显著的性能提升揭示了释放现代图像骨干网络对BEV识别的巨大潜力。BEVFormer v2的成功表明,即使没有在特定的3D任务上进行预训练,通过优化的网络设计和训练策略,仍然可以实现卓越的3D检测性能。这对未来的BEV检测器设计和开发提供了重要的指导和启示。

5.4 Ablations and Analyses

5.4.1 Effectiveness of Perspective Supervision

这段文本探讨了透视监督对于3D检测器性能的影响,通过比较不同视图监督组合下的3D检测器,验证了透视监督的有效性。下面是对这段文本的详细分析:

实验设计
视图监督组合比较
  • 透视 & BEV:提出的BEVFormer v2,一个两阶段检测器,集成了一个透视头和一个BEV头。
  • 仅透视:模型中的单阶段透视检测器。
  • 仅BEV:模型中的单阶段BEV检测器,没有混合对象查询。
  • BEV & BEV:一个具有两个BEV头的两阶段检测器,即用另一个BEV头替换透视头,该BEV头利用BEV特征为混合对象查询提出建议。
性能比较
  • 相比于仅透视检测器,仅BEV检测器通过利用多视图图像实现了更好的NDS和mAP,但其mATE和mAOE更高,指出了BEV监督的潜在问题。
  • 透视 & BEV检测器取得了最佳性能,与仅BEV检测器相比,NDS和mAP分别提高了2.5%和1.9%。特别是,透视 & BEV检测器的mATE、mAOE和mAVE显著低于仅BEV检测器。
性能提升的原因
  1. 透视监督引导的骨干网络:预训练在常规视觉任务上的骨干网络无法捕捉3D场景中的某些对象属性,包括深度、方向和速度,而由透视监督引导的骨干网络能够提取关于这些属性的信息。
  2. 混合对象查询:与固定的对象查询集合相比,我们的混合对象查询包含第一阶段的预测作为参考点,帮助BEV头定位目标对象。

为了进一步确保改进不仅仅是由两阶段流程带来的,引入了BEV & BEV检测器进行比较。结果表明,BEV & BEV仅BEV性能相当,并且无法与透视 & BEV相比。因此,仅构建第一阶段头部并在透视视图中应用辅助监督对于BEV模型是有帮助的。

结论

这项研究显示,透视监督对于提高BEV检测器的性能至关重要。通过集成透视和BEV视图的监督,BEVFormer v2能够显著提高3D对象检测的准确性,尤其是在定位精度和对象属性识别方面。这强调了混合视图监督和混合对象查询在提高3D检测性能中的重要性。

5.4.2 Generalization of Perspective Supervision
透视监督的泛化性

本小节探讨了提出的透视监督对于不同架构和大小骨干网络的泛化能力。通过在常用于3D对象检测任务的一系列骨干网络上构建BEVFormer v2,包括ResNet、DLA、VoVNet和InternImage,结果显示,与纯BEV检测器相比,BEVFormer v2(BEV与透视结合)在所有骨干网络上的NDS提高了约3%,mAP提高了约2%,表明其能够泛化到不同的架构和模型大小。

泛化能力的表现
  • 性能提升:在不同的骨干网络上,BEVFormer v2均实现了显著的性能提升,NDS平均提升3%,mAP平均提升2%。
  • 骨干网络多样性:实验涵盖了多种骨干网络,包括ResNet、DLA、VoVNet和InternImage,这些网络在架构和大小上有所不同。
透视监督的重要性
  • 泛化能力:这些结果证明了透视监督不仅能提高特定模型的性能,也显示了其对于不同骨干网络架构和大小的泛化能力。
  • 适用性:特别是对于没有任何3D预训练的大规模图像骨干网络,额外的透视监督可以作为训练BEV模型的一般方案。
结论

透视监督通过为BEV检测提供额外的空间上下文和几何信息,为提高3D对象检测性能提供了一种有效手段。这一发现强调了在开发高性能BEV检测系统时,考虑不同视角监督的重要性。透视监督的成功应用和泛化能力展示了其作为提升3D检测性能的一个有力工具,特别是在处理来自多种架构和大小骨干网络的复杂场景时。

5.4.3 Choice of Training Epochs
训练收敛性比较:BEV Only与BEV & Perspective

本节研究比较了仅BEV模型和结合了BEV与透视视图(BEV & Perspective)的BEVFormer v2在不同训练周期下的收敛速度,以探讨两种模型达到收敛所需的时间。通过这种比较,旨在验证辅助透视损失对优化过程的促进作用。

实验结果
  • 收敛速度:结果显示,BEV & Perspective模型比BEV Only模型收敛得更快,这证实了辅助透视损失有助于优化过程。
  • 性能差距:即使BEV Only模型训练时间更长,也只能获得边际改进。即使训练周期增长到72个,两个模型之间的性能差距仍然存在,这表明仅通过BEV监督不能充分适应图像骨干网络。
训练周期的选择
  • 根据表4的数据,对于BEV & Perspective模型,48个训练周期已足够,因此在除特别指定外的其他实验中,将保持这一训练周期不变。
结论

这项比较研究揭示了结合透视视图监督的BEV模型(BEV & Perspective)在训练过程中的优势,特别是在加速模型收敛和提高优化效率方面。此外,结果还表明,仅依赖BEV监督可能限制了模型对图像骨干网络的适应性,而辅助透视损失的引入则有效地克服了这一限制。因此,BEV & Perspective的训练策略对于提高3D对象检测模型的性能和训练效率具有重要意义。

5.4.4 Choice of Detection Heads
5.4.5 Ablations of Bells and Whistles

六 Conclusion

未完待续…

  • 12
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值