单目3D大一统！UniMODE：直接暴涨五个点

最新推荐文章于 2024-04-12 22:14:23 发布

自动驾驶之心

最新推荐文章于 2024-04-12 22:14:23 发布

阅读量360

点赞数

文章标签： 3d

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247591216&idx=4&sn=08e21d9271a0803c4585ef0e1371e090&chksm=cf741f66b74435b2fecc01d9c29529462e2018331f6679e0b6c277858bd6ca0f31ac03cc98a3&scene=126&sessionid=0

版权

作者 | 小书童编辑 | 集智书童

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

>>点击进入→自动驾驶之心『3D目标检测』技术交流群

本文只做学术分享，如有侵权，联系删文

实现统一的单目3D目标检测，包括室内和室外场景，在机器人导航等领域具有重大意义。然而，由于数据场景的显著不同特性，如图形属性的多样性和异质领域分布，将各种数据场景融入模型训练中提出了挑战。为了应对这些挑战，作者基于鸟瞰图（BEV）检测范式构建了一个检测器，其中明确的特征投影有助于在采用多种场景数据训练检测器时解决几何学习的不确定性。接着，作者将经典的BEV检测架构分为两个阶段，并提出了一个不均匀的BEV网格设计来处理由上述挑战引起的收敛不稳定性。此外，作者开发了一种稀疏BEV特征投影策略以减少计算成本，以及一种统一的领域对齐方法来处理异质领域。结合这些技术，作者得到了一个统一的检测器UniMODE，它超越了之前在具有挑战性的Omni3D数据集（一个包括室内外场景的大规模数据集）上的最佳性能，提高了4.9% ，这是BEV检测器首次在统一3D目标检测上的成功泛化。

1 Introduction

单目3D目标检测旨在仅使用相机捕获的单张图像准确确定目标的确切3D边界框[13, 16]。与其他基于模态（如激光雷达点云）的3D目标检测相比，基于单目的解决方案在成本效益和全面的语义特征方面具有优势[17, 19]。此外，由于其在自动驾驶[8]等广泛应用领域的潜力，单目3D目标检测最近受到了很多关注。

得益于研究界的努力，已经开发出了众多检测器。有些是针对户外场景[9, 38]，如城市驾驶设计的，而其他则专注于室内检测[28]。尽管这些检测器的共同目标是单目3D目标检测，但它们在网络架构上存在显著差异[5]。这种分歧阻碍了研究行人将各种场景的数据结合起来，训练一个在多样化场景中表现良好的统一模型，这是许多重要应用（如机器人导航[30]）所需求的。

统一3D目标检测中最关键的挑战在于解决不同场景的独特特性。例如，室内物体通常较小且相互之间距离较近，而室外检测需要覆盖广阔的感知范围。最近，Cube RCNN [5] 成为研究这一问题的先驱。它直接在相机视图中生成3D框预测，并采用深度解耦策略来克服场景之间的领域差距。然而，作者观察到它存在严重的收敛困难，并且在训练过程中容易崩溃。

为了克服Cube RCNN不稳定收敛的问题，作者采用了近期流行的鸟瞰图（BEV）检测范式来开发一个统一的3D目标检测器。这是因为BEV范式中的特征投影将图像空间与3D现实空间明确对齐[15]，这缓解了单目3D目标检测中的学习歧义。然而，经过大量探索后，作者发现简单地采用现有的BEV检测架构[15, 18]并不能取得令人满意的效果，这主要归咎于以下障碍。

首先，如图1（a）和（b）所示，室内外场景之间的几何属性（例如，感知范围，目标位置）差异很大。具体来说，室内物体通常距离摄像头几米远，而室外目标可能超过100米远。由于需要一个统一的鸟瞰图（BEV）检测器来识别所有场景中的物体，BEV特征必须覆盖最大可能的感知范围。同时，由于室内物体通常较小，室内检测所需的BEV网格分辨率需要非常精确。所有这些特性可能导致收敛不稳定和计算负担加重。为了应对这些挑战，作者开发了一个两阶段的检测架构。在这个架构中，第一阶段产生初始目标位置估计，第二阶段利用这个估计作为先验信息来定位目标，这有助于稳定收敛过程。此外，作者引入了一种创新的非均匀BEV网格分割策略，在保持可管理的BEV网格大小的同时扩展了BEV空间范围。此外，还开发了一种稀疏BEV特征投影策略，将投影计算成本降低了82.6%。

另一个障碍源于不同场景中的异构领域分布（例如，图像风格，标签定义）。例如，如图1（a）、（b）和（c）所示，数据可以在真实场景中收集或虚拟合成。此外，比较图1（c）和（d），一类目标可能在某个场景中被标注，但在另一个场景中未被打标签，这会导致网络收敛时的混淆。为了处理这些冲突，作者提出了一个由两部分组成的统一领域对齐技术，包括领域自适应层归一化以对齐特征，以及用于缓解标签定义冲突的类别对齐损失。

结合所有这些创新技术，开发了一种名为UniMODE的统一单目目标检测器，它在Omni3D基准测试中取得了最先进（SOTA）的性能。在统一检测设置中，UniMODE在（基于3D交并比的平均精度）方面以令人印象深刻的4.9%超过了SOTA检测器Cube RCNN。此外，当分别在室内和室外检测设置中评估时，UniMODE分别比Cube RCNN高出11.9%和9.1%。这项工作代表了一次探索将鸟瞰图（BEV）检测架构推广到统一检测的先驱性尝试，无缝整合了室内和室外场景。它展示了BEV检测在广泛场景中的巨大潜力，并强调了这项技术的多功能性。

2 Related Work

单目3D目标检测。 由于其经济和灵活的优势，单目3D目标检测吸引了大量研究关注[22]。现有的检测器大致可以分为两类：相机视角检测器和鸟瞰图（BEV）检测器。其中，相机视角检测器在将结果转换为3D真实空间之前，在2D图像平面上生成结果[10, 25]。这一组通常更容易实现。然而，从2D相机平面到3D物理空间的转换可能会引入额外的误差[32]，这会对通常在3D空间进行的下游规划任务产生负面影响[7]。

另一方面，BEV检测器先将2D相机平面上的图像特征转换到3D物理空间，然后在3D空间生成结果[12]。这种方法有利于下游任务，因为规划也是在3D空间进行的[18]。然而，BEV检测器面临的挑战是，特征转换过程依赖于准确的深度估计，仅凭相机图像很难实现这一点[23]。因此，在处理不同的数据场景时，收敛变得不稳定[5]。

统一目标检测。 为了提高检测器的泛化能力，一些研究探索了在模型训练过程中整合多个数据源[14, 34]。例如，在2D目标检测领域，SMD [40] 通过学习一个统一的标签空间来提高检测器的性能。在3D目标检测领域，PPT [36] 研究了如何利用来自不同数据集的广泛的3D点云数据进行检测器的预训练。此外，Uni3DETR [35] 展示了如何设计一个统一的基于点的3D目标检测器，该检测器在不同的领域表现良好。对于基于相机的检测任务，Cube RCNN [5] 是统一单目3D目标检测研究的唯一先驱。然而，Cube RCNN 面临着收敛不稳定的问题，这需要在此领域进行进一步的深入研究。

3 Method

Overall Framework

UniMODE的整体框架如图2所示。如图所示，从多种场景（例如，室内和室外，真实和合成，白天和夜晚）采样的单目图像被输入到特征提取模块（包括一个 Backbone 网络和一个 Neck 网络），以生成代表性特征。然后，被4个全卷积头处理，分别称为“域头”、“ Proposal 头”、“特征头”和“深度头”。其中，域头的作用是预测输入图像与哪个预定义数据域最相关，域头产生的分类置信随后用于域对齐。Proposal 头旨在在6个Transformer解码器之前估计粗糙的目标分布，估计的分布作为第二阶段检测的先验信息。这种设计缓解了不同训练域之间的分布不匹配（参见第3.2节）。Proposal 头的输出被编码为个 Proposal Query 。此外，个 Query 是随机初始化的，并与 Proposal Query 连接起来用于第二阶段的检测，导致在第二阶段有个 Query 。

特征头和深度头负责将图像特征投影到BEV平面并获得BEV特征。在这个投影过程中，作者开发了一种技术来去除不必要的投影点，这大约减少了82.6%的计算负担（参见第3.4节）。此外，作者提出了不均匀的BEV特征（参见第3.3节），这意味着距离摄像机更近的BEV网格拥有更精确的分辨率，而距离摄像机更远的网格覆盖更广的感知区域。这种设计很好地平衡了室内检测和室外检测之间网格大小的矛盾，而且不增加额外的内存负担。

获取到投影的鸟瞰图（BEV）特征后，采用一个BEV编码器进一步细化特征，并采用6个解码器生成第二阶段的检测结果。正如之前所述，在这个过程中使用了个 Query 。在6个解码器之后，通过 Query FFN将这些 Query 解码为检测结果。在解码器部分，设计了统一的域对齐策略，通过特征和损失的角度对各种场景的数据进行对齐。更多细节请参考第3.5节。

Two-Stage Detection Architecture

室内外三维目标检测的整合颇具挑战性，这主要是因为不同的几何特性（例如，感知范围、目标位置）。室内检测通常涉及近距离目标，而室外检测则关注在更广阔的三维空间中分散的目标。如图3所示，室内外检测场景中的感知范围和目标位置存在显著差异，这对于传统的鸟瞰图（BEV）三维目标检测器来说是一项挑战，因为它们具有固定的BEV特征分辨率。

几何属性差异被识别为导致BEV检测器不稳定收敛的一个重要原因[15]。例如，目标位置分布差异使得基于Transformer的检测器难以学习如何逐渐将 Query 参考点更新到关注目标。实际上，通过可视化作者发现，在6个Transformer解码器中的参考点更新是混乱的。因此，如果作者采用经典的可变形DETR架构[41]来构建一个3D目标检测器，由于学习到的参考点位置不准确，训练很容易崩溃，导致梯度突然消失或爆炸。

为了克服这一挑战，作者采用两阶段检测的方式构建了UniMODE。在第一阶段，作者设计了一个类似于CenterNet [39]风格的 Head （图2中的 Proposal Head ）来生成检测 Proposal 。具体来说，它预测的属性包括目标的2D中心高斯 Heatmap 、从2D中心到3D中心的偏移以及3D中心的深度。Proposal 的3D中心坐标可以通过这些预测属性得出。然后，选择置信度最高的前个 Proposal ，并通过一个多层感知机（MLP）层将其编码为个 Proposal Query 。为了考虑到可能遗漏的任何目标，将另外个随机初始化的 Query 与这些 Proposal Query 连接起来，在第二阶段的6个解码器中进行信息交互（即 Transformer 阶段）。通过这种方式，第二检测阶段的初始 Query 参考点能够自适应调整。作者的实验表明，这种两阶段架构对于稳定收敛至关重要。

此外，由于 Query 参考点的位置并非随机初始化，因此放弃了在deformable DETR [41]中提出的迭代边界框细化策略，因为它可能导致参考点质量的下降。实际上，作者观察到这种迭代边界框细化策略可能导致收敛崩溃。

Uneven BEV Grid

室内与室外3D目标检测的一个显著区别在于数据收集过程中，物体到相机的几何信息（例如，尺度、接近度）。室内环境通常具有更小的物体，且这些物体位于离相机更近的位置，而室外环境则涉及更大的物体，且这些物体位于更远的位置。此外，室外3D目标检测器必须考虑到更宽的环境感知范围。因此，现有的室内3D目标检测器通常使用较小的 Voxel 或柱子尺寸。例如，CAGroup3D [31]，一个最先进的室内3D目标检测器，其 Voxel 尺寸为0.04米，而经典室内数据集SUN-RGBD [29]中的最大目标深度大约为8米。相比之下，室外数据集展现出更大的感知范围。例如，常用的室外检测数据集KITTI [8]的最大深度范围为100米。由于这种巨大的感知范围和有限的计算资源，室外检测器采用更大的鸟瞰图（BEV）网格尺寸，例如，在BEVDepth [11]，一个最先进的室外3D目标检测器中，BEV网格尺寸为0.8米。

因此，当前户外检测器的鸟瞰图（BEV）网格尺寸通常较大，以适应广阔的感知范围，而室内检测器的尺寸较小，这是由于复杂的室内场景所致。然而，由于UniMODE旨在使用统一的模型结构和网络权重来解决室内和室外三维目标检测，其BEV特征必须覆盖一个大感知区域，同时仍然使用小的BEV网格，这在有限的GPU内存条件下提出了一个巨大的挑战。

为了克服这一挑战，作者提出了一种解决方案，该方案将BEV空间划分为不均匀网格，这与现有检测器所使用的均匀网格形成对比。如图2的下半部分所示，作者通过在靠近相机的位置使用较小尺寸的网格，在较远的位置使用较大尺寸的网格来实现这一点。这种方法使UniMODE能够有效地感知各种物体，同时对于近距离的物体保持小网格尺寸。重要的是，这并不会增加网格的总数，从而避免了任何额外的计算负担。具体来说，假设在深度轴上有个网格，深度范围为，那么第个网格的大小设置为：

值得注意的是，方程式1的数学形式与CaDDN [26]中深度的线性递增离散化相似，但其本质上有根本的不同。在CaDDN中，特征投影分布被调整以分配更多特征给靠近相机的网格。在实验中，作者观察到这种调整导致BEV特征更加不平衡，即靠近的网格特征更密集，而远处的网格更多为空。由于所有网格的特征都是由同一个网络提取的，这种不平衡降低了性能。相比之下，作者的非均匀BEV网格方法通过使特征密度更加平衡，提高了检测精度。

Sparse BEV Feature Projection

将相机视角特征转换到鸟瞰图（BEV）空间的过程由于大量的投影点而相当计算密集。具体来说，考虑到图像特征和深度特征，通过将和相乘得到投影特征。因此，随着的增长，投影点的数量会显著增加。这一特征投影步骤的巨大计算负担限制了BEV特征的分辨率，从而阻碍了室内外3D目标检测的统一。

在这项工作中，作者观察到在中的大多数投影点是不必要的，因为它们的数值非常小。这本质上是因为中相应的值很小，这意味着模型预测这些特定的鸟瞰图（BEV）网格中没有目标。因此，可以节省将特征投影到这些不相关网格上的时间。

基于以上的洞察，作者 Proposal 根据预定义的阈值移除不必要的投影点。具体来说，作者消除了在中的那些对应的深度置信度小于的投影点。通过这种方式，大多数投影点被排除。例如，当设置为0.001时，大约82.6%的投影点可以被排除。

Unified Domain Alignment

异构领域分布存在于各种场景中，作者通过特征和损失的角度来应对这一挑战。

领域自适应层归一化。 对于特征视图，作者初始化特定于领域的可学习参数以应对在多种训练数据领域中观察到的变化。然而，这一策略必须遵循两个关键要求。首先，即使在训练过程中未遇到图像域时，检测器在推理过程中也应表现出稳健的性能。其次，引入这些特定于领域的参数应尽可能减少计算开销。

考虑到这两个要求，作者提出了领域自适应层归一化（DALN）策略。在这种策略中，作者首先将训练数据分为个领域。对于层归一化（LN）[2]的经典实现，将输入序列表示为，并将其索引为的元素表示为，通过LN处理得到的相应输出为：

在DALN中，作者构建了一套可学习的特定领域参数，即，其中对应于第个领域。初始化为1，而设为0。接着，作者建立了一个由几个卷积层组成的领域 Head 。如图2所示，该领域 Head 以特征作为输入，并预测输入图像属于这个领域的置信度分数。将第张图像的置信度表示为，根据以下方式计算输入相关参数：

获得后，作者使用它们来调整关于的分布，其中表示更新后的分布。通过这种方式，UniMODE中的特征分布可以根据输入图像自适应调整，增加的参数可以忽略不计。此外，当输入训练集中未见的图像时，DALN仍然可以工作得很好，因为未见的图像仍然可以被分类为这些域的加权组合。

尽管存在一些与自适应标准化相关的先前技术，但几乎所有的技术都是直接回归依赖于输入的参数[36]。因此，它们需要为每个标准化层构建一个特殊的回归头。相比之下，DALN使所有层能够共享同一个域头，因此计算负担要小得多。此外，DALN引入了特定于域的参数，这些参数在训练时更加稳定。

类别对齐损失。 在损失方面，作者旨在解决结合多个数据源时遇到的异质标签冲突问题。具体来说，在Omni3D中有6个独立标记的子数据集，它们的标签空间是不同的。例如，如图4所示，虽然_ARKitScenes_中标注了_Window_类别，但在Hypersim中却没有被标记。由于Omni3D的标签空间是所有子集中所有类别的并集，因此在图4（a）中未标注的窗户变成了一个缺失的目标，这损害了收敛稳定性。

在第3.2节中描述的两阶段检测架构可以在一定程度上缓解上述问题，因为它帮助检测器集中关注前景物体，而未标注物体在计算损失时被忽略。为了进一步解决这个问题，作者设计了一个简单的策略，即类别对齐损失。具体来说，将第个数据集的标签空间表示为，作者在第个数据集上计算损失：

其中、、、分别代表损失函数、类别预测、类别标签和背景类别。是一个用于减少对未包含在此样本标签空间内的类别的惩罚的因子。

4 Experiment

实施细节。 相机坐标系中X轴、Y轴和Z轴的感知范围是。

在, , 米范围内，如果没有特别声明，鸟瞰图（BEV）网格分辨率设置为。在类对齐损失中定义的因子设为0.2。和被设置为100。所采用的优化器是AdamW，对于批量大小为192的情况，学习率设置为。实验主要在4个A100 GPU上进行。总损失包括两部分：Proposal 头损失和 Query FFN损失。Proposal 头损失由 Heatmap 分类损失和深度回归损失组成。Query FFN损失包括分类损失（交叉熵损失）和回归损失（预测3D中心、尺寸和方向的损失）。总损失是这些损失项的加权总和。对于个 Proposal Query 生成没有设置特殊的损失。

数据集。 本节中的实验是在Omni3D上进行的，这是唯一一个涵盖室内和室外场景的大规模3D目标检测基准。Omni3D建立在六个著名的数据集之上，包括KITTI [8]，SUN-RGBD [29]，ARKitScenes [3]，Objectotron [1]，nuScenes [6]和Hypersim [27]。在这些数据集中，KITTI和nuScenes专注于城市驾驶场景，这是现实世界的室外环境。SUN-RGBD，ARKitScenes和Objectotron主要涉及现实世界的室内环境。与室外数据集相比，室内数据集所需的感知范围较小，目标类别更为多样。与上述五个数据集不同，Hypersim是一个虚拟合成的数据集。因此，Hypersim允许标注在真实场景中难以标记的目标类别，例如透明目标（例如，窗户）和非常薄的目标（例如，地毯）。Omni3D数据集总共包含98个目标类别和300万个3D框标注，覆盖了234,000张图像。评价指标是，它反映了3D框预测与标签之间的3D交并比（IoU）。

实验设置。 由于Omni3D是一个大规模的数据集，在其上训练模型需要许多GPU。例如，Cube RCNN的作者们用48个V100进行每次实验，耗时4~5天。在这项工作中，第4.1节中的实验在高计算资源设置下进行（输入图像分辨率为，主干网络为ConvNext-Base [20]，使用全部训练数据）。鉴于作者的计算资源有限，除非明确说明，否则其余实验将在低计算资源设置下进行（输入分辨率为，主干网络为DLA34 [37]，从所有6个子数据集中固定采样20%的训练数据）。

Performance Comparison

在这一部分，作者比较了所提出检测器与先前方法的性能。其中，Cube RCNN是唯一一个也探索统一检测的检测器。BEVFormer [15] 和 PETR [18] 是两种流行的BEV检测器，作者在Omni3D基准上重新实现了它们以获得检测得分。其他比较的检测器的性能来自[5]。所有结果均在表1中给出。此外，作者还展示了UniMODE在Omni3D中各个子数据集上的详细检测得分，如表2所示。

根据结果，作者可以观察到UniMODE在所有指标上都取得了最佳效果。在主要指标上，它超过了SOTA Cube RCNN 4.9%。除了DLA34，作者还尝试了另一个 Backbone 网络ConvNext-Base。这是因为先前的研究表明，DLA34通常用于类似于Cube RCNN的相机视角检测器，但不适用于BEV检测器[13]。由于UniMODE是一个BEV检测器，仅用DLA34测试UniMODE的性能是不公平的。因此，作者还用ConvNext-Base测试了UniMODE，结果显示性能得到了显著提升。另外，UniMODE的速度也很有前景。在1个A100 GPU上进行测试，UniMODE在高和低计算资源设置下的推理速度分别为21.41 FPS和43.48 FPS。

此外，从表1可以观察到，在统一检测设定下，BEVFormer和PETR并未很好地收敛，而在使用户外数据集训练时表现出了希望。这一现象暗示了统一室内和户外3D目标检测的难度。通过分析，作者发现，当BEVFormer使用所有领域的数据时，结果较差，因为其收敛性相当不稳定，且在训练期间损失曲线常常跃升到高值。PETR表现不佳是因为它隐式地学习了2D像素与3D Voxel 之间的对应关系。当在一个数据集中，如nuScenes [6]，所有样本的摄像头参数保持相似时，PETR能够平滑地收敛。然而，在像Omni3D这样摄像头参数变化剧烈的数据集上训练时，PETR的训练变得更为困难。

Ablation Studies

关键组件设计。 作者在UniMODE中消融了所提出策略的有效性，包括 Proposal 头、不均匀的鸟瞰图（BEV）网格、稀疏的BEV特征投影以及统一的领域对齐。实验结果展示在表3中。值得注意的是，如前所述，由于计算资源有限，这一部分的实验是在低计算资源环境下进行的。

根据表3的结果，作者可以观察到所有这些策略都是非常有效的。其中， Proposal 头（proposal head）带来的提升最为显著。具体来说， Proposal 头将整体检测性能指标提升了3.6%。同时，室内和室外检测指标和分别提升了2.5%和7.9%。如第3.2节所讨论， Proposal 头之所以非常有效，是因为它稳定了UniMODE的收敛过程，从而有利于检测精度。使用了 Proposal 头后，就不会发生崩溃。另外，尽管稀疏的BEV特征投影策略没有提高检测精度，但它将投影成本降低了82.6%。

不均匀的BEV网格。 作者研究了在不均匀BEV网格设计中BEV特征网格大小和深度划分策略的影响，结果如表4所示。当深度划分不均匀时，作者按照方程式1划分深度区间。

比较表4中的第1行和第2行结果，作者可以发现不均匀的深度区间会恶化检测性能。作者推测这是因为这种策略在较近的鸟瞰图（BEV）网格中投射了更多的点，而在较远的网格中投射的点较少，这进一步增加了投影特征的不平衡分布。此外，通过比较表4中的第1行、第3行和第4行结果，作者观察到较小的BEV网格会导致更好的性能。由于计算资源有限以及Omni3D大量的训练数据，作者在所有其他实验中将BEV网格大小设置为1米，而不是0.5米，即如果作者减小BEV网格的大小，UniMODE的性能相比于当前性能可以得到进一步的提升。

稀疏BEV特征投影。 如第3.4节所述，BEV特征投影过程计算成本高昂。为了降低这一成本，作者提出移除不重要的投影点。尽管这种策略显著提高了网络效率，但它可能会降低检测准确性和收敛稳定性，这正是一种权衡。在本部分，作者通过实验研究这种权衡。具体来说，如第3.4节介绍，作者基于预定义的超参数移除不重要的投影点。调整的值以分析移除的投影点比例如何影响性能。结果在表5中报告。

从表5可以观察到，当为0时，意味着没有舍弃任何特征，所有行中达到了最佳性能。当作者设置为时，大约82.6%的特征被舍弃，而检测器的性能与时的性能非常相似。这一现象表明，被舍弃的特征对最终的检测准确性并不重要。然后，当作者把提高到和时，可以发现相应的性能急剧下降。这一观察结果表明，当作者舍弃过多的特征时，检测精度甚至训练稳定性都会受到显著影响。结合所有观察结果，作者在UniMODE中设置为，并舍弃82.6%的不重要特征，这在不舍弃特征的情况下，将计算成本降低了82.6%，同时保持了相似的性能。

DALN的有效性。 在这项实验中，作者通过比较没有任何领域自适应策略的朴素 Baseline 、使用直接回归（DR）[24]预测动态参数的 Baseline ，以及带有DALN（作者提出的）的 Baseline ，来验证DALN的有效性。所有这些模型仅使用ARKitScenes进行训练，并分别使用ARKitScenes（域内）和SUN-RGBD（域外）进行评估。结果如表6所示。可以观察到，DR可能会降低检测精度，而DALN则显著提升了性能，这揭示了DALN的零样本域外有效性。

Cross-domain Evaluation

作者在本部分通过进行跨领域评估来评估UniMODE的泛化能力。具体来说，作者在Omni3D的一个子数据集上训练一个检测器，并在不同的其他子数据集上测试这个检测器的性能。实验在两种设置下进行。在零样本设置中，测试领域是完全未见的。在-微调设置中，使用测试领域1%的训练集数据来微调UniMODE中的 Query FFN，持续1个周期。实验结果在表7中呈现。

根据表7中第列的结果，作者可以发现，当一个检测器在相同的室内子数据集上进行训练和验证时，其性能是有希望的。然而，在另一个完全未见过的子数据集上进行评估时，准确度有限。这部分是因为单目3D深度估计是一个病态问题。当训练和验证数据属于不同领域时，准确预测深度是具有挑战性的，特别是对于虚拟数据集Hypersim。

然后，作者引入了另一种测试设置，-调优。在这种设置中，如果一个检测器在不同于训练域的另一域上进行测试，那么 Query FFN将通过测试域中1%的训练数据进行微调。这种-调优设置的结果在表7的列中报告。作者可以观察到，当仅用少量数据微调时，UniMODE的性能变得更有希望。这个结果表明了UniMODE作为基础模型的优越性。它可以通过仅融入测试域的一点点训练数据，来造福实际应用。

Visualization

作者展示了UniMODE在Omni3D各个子数据集上的检测结果。展示的结果如图5所示，其中UniMODE在所有数据样本上的表现都相当出色，并且准确捕捉了复杂室内外场景下的三维物体边界框。

此外，正如先前所提及的，训练不稳定是统一不同训练领域的主要挑战。为了更清楚地解释训练不稳定的含义，作者在图6中展示了UniMODE的损失曲线和一个PETR的不稳定情况。可以观察到，在PETR的训练过程中存在突然的损失增加和持续的梯度消失，而UniMODE则能平滑地收敛。

5 Conclusion and Limitation

在这项工作中，作者提出了一种名为UniMODE的统一单目3D目标检测器，其中包含了几项精心设计的技术，以解决在统一3D目标检测中观察到的许多挑战。所提出的检测器在Omni3D基准测试上达到了SOTA性能，并展示了高效率。进行了大量实验来验证所提出技术的高效性。检测器的局限性在于其对未见数据场景的零样本泛化能力仍然有限。未来，作者将继续研究如何通过诸如扩大训练数据等策略来提升UniMODE的零样本泛化能力。

参考

[1].UniMODE: Unified Monocular 3D Object Detection.

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近2700人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦2D/3D目标检测、语义分割、车道线检测、目标跟踪、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、在线地图、点云处理、端到端自动驾驶、SLAM与高精地图、深度估计、轨迹预测、NeRF、Gaussian Splatting、规划控制、模型部署落地、cuda加速、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

④【自动驾驶之心】平台矩阵，欢迎联系我们！

自动驾驶之心

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
单目3D大一统！UniMODE：直接暴涨五个点

作者|小书童编辑| 集智书童点击下方卡片，关注“自动驾驶之心”公众号ADAS巨卷干货，即可获取>>点击进入→自动驾驶之心『3D目标检测』技术交流群本文只做学术分享，如有侵权，联系删文实现统一的单目3D目标检测，包括室内和室外场景，在机器人导航等领域具有重大意义。然而，由于数据场景的显著不同特性，如图形属性的多样性和异质领域分布，将各种数据场景融入模型训练中提出了挑战。为了应对...
复制链接

扫一扫