MonoLSS:用于单目3D检测的可学习样本选择

Abstract

在自动驾驶领域,单目3D检测是一项关键任务,用于估计单个RGB图像中物体的3D属性(深度、尺寸和方向)。之前的研究工作在学习3D属性时,以启发式的方式使用特征,而没有考虑到不适当的特征可能会产生负面影响。在本文中,引入了样本选择的概念,即只应训练适合的样本来回归3D属性。为了自适应地选择样本,我们提出了一个可学习的样本选择(LSS)模块,该模块基于Gumbel-Softmax和相对距离样本划分器。LSS模块在预热策略下工作,从而提高了训练的稳定性。此外,由于专门用于3D属性样本选择的LSS模块依赖于对象级特征,我们进一步开发了一种名为MixUp3D的数据增强方法,以符合成像原理的方式丰富3D属性样本,而不引入歧义。作为两种正交的方法,LSS模块和MixUp3D可以独立使用或结合使用。借助LSS模块和MixUp3D方法,在没有额外数据的情况下,我们的方法(称为MonoLSS)在KITTI 3D物体检测基准测试的所有三个类别(汽车、骑行者和行人)中均排名第一。

1. Introduction

为了实现准确的3D属性估计,许多方法在2D检测器中添加了3D属性预测分支。这些分支利用骨干网络提取的特征来输出3D属性。然而,需要注意的是,并非所有特征都适合用于学习3D属性。设计动机来源于2D检测的标签分配。通常情况下,人们很少会将IOU(交并比)小于0.3的锚点作为目标检测的正样本(在无锚方法中,这意味着远离物体中心)。这是因为视觉特征与学习目标不匹配。使用不适当的特征可能导致模糊性,甚至产生负面影响。我们将这种知识转移到3D属性学习中。例如,如图1所示,白色汽车的特征图大小为d * d * C,但被灰色汽车遮挡。

SMOKE [32] 仅使用位于物体3D中心的固定位置特征(大小为1 * 1 * C)来回归3D属性。当发生遮挡时,该特征可能位于另一个物体上。尽管感受野不限于特征位置,网络可能无法接收到最佳信息输入。

相比之下,GUPNet [34] 利用所有d * d特征,并通过全局平均池化模块 [30] 输出3D属性。然而,由于包含前景和背景干扰的无用信息,这种方法仍然存在问题。

在这项工作中,我们引入了样本选择,以识别对学习3D属性有利的特征,并将其作为正样本,而忽略其余的特征,并将其视为负样本。挑战在于如何划分它们。一种直观的方法是关注目标对象本身的特征(图1(c)),但这些方法需要引入深度图 [40] 或分割标签等额外数据,仍然无法在对象的不同内部组件(如轮子、灯或车身)之间选择合适的样本为了解决3D属性样本选择问题,我们提出了一种新颖的可学习样本选择(LSS)模块。LSS模块通过Gumbel-Softmax [13] 实现概率采样。此外,使用top-k Gumbel-Softmax [22] 进行多样本采样,将抽取的样本数量从1扩展到k。此外,为了替代对所有对象使用相同的k值,我们开发了基于相对距离的无超参数样本划分器,实现了每个对象的自适应采样值确定。此外,受HTL方法 [34] 的启发,LSS模块结合了预热策略以稳定训练过程。

此外,专门用于3D属性样本选择的LSS模块依赖于对象级特征。然而,训练数据中的对象数量始终有限。同时,大多数3D单目数据增强方法,如随机裁剪扩展、随机翻转、复制粘贴等,都不会改变对象本身的特征。其中一些甚至由于违反成像原理而引入模糊特征。为了提高3D属性样本的丰富性,我们提出了MixUp3D,它在传统2D MixUp [57] 的基础上添加物理约束,以模拟物理世界中的空间重叠。空间重叠不会改变对象的3D属性,例如汽车与自行车重叠,但我们仍然可以判断它们的深度、尺寸和方向。作为空间重叠的模拟,MixUp3D使对象符合成像原理而不引入模糊。它可以丰富训练样本并减轻过拟合。此外,MixUp3D可以作为任何单目3D检测方法的基本数据增强方法。

结合所有技术,我们的单目3D检测方法名为MonoLSS,在不使用任何额外数据的情况下显著超越了之前的最先进(SOTA)工作。它可以简单地端到端训练,同时仍然保持实时效率。总结起来,这项工作的主要贡献如下:

  • 我们强调并非所有特征对学习3D属性同样有效,首先将其重新表述为一个样本选择问题。相应地,开发了一种新颖的可学习样本选择(LSS)模块,可以自适应地选择样本。
  • 为了丰富3D属性样本,我们设计了MixUp3D数据增强方法,模拟空间重叠并提高3D检测性能。
  • 在不引入任何额外信息的情况下,MonoLSS在KITTI基准 [9] 的所有三个类别中排名第一,并在Car类的中等难度和困难级别上相对超越当前最佳方法超过11.73%和12.19%。它还在Waymo数据集 [47] 和KITTI-nuScenes [2] 跨数据集评估中取得了SOTA结果。

2. Related work

单目3D目标检测。单目3D目标检测旨在预测精确的3D边界框。根据是否使用额外数据,单目3D目标检测算法主要可以分为两类。第一类方法仅使用单个图像作为输入而不需要任何额外信息。例如,M3D-RPN [1] 采用独立的3D区域提议网络,并提出深度卷积来预测目标。基于CenterNet风格 [61] 网络的SMOKE [32] 通过结合单点估计模块预测3D边界框。此外,MonoFlex [60] 使用边缘热图和边缘融合模块优化了截断障碍物的预测方法。MonoPair [5] 探索不同目标之间的关系。MonoEF [62] 首先通过检测消失点和地平线变化来预测相机外部参数,然后采用转换器在潜在空间中纠正扰动特征。MonoCon [50] 在训练中学习从3D边界框投影的辅助单目上下文,并在推理时舍弃它们以提高推理效率。MonoDDE [28] 利用单目图像中的深度线索,开发了一种为每个目标生成20个深度的模型。

第二类方法使用额外数据,如深度图、LIDAR点云和CAD模型,以获取额外信息并增强检测。ROI-10D [37] 结合深度特征图并估计密集深度图以回归3D边界框。D4LCN [8] 提出深度引导卷积,其中接收字段由预测深度自适应确定。DID-M3D [40] 通过使用密集深度图将实例深度解耦为属性深度和视觉深度。CaDDN [41] 使用LIDAR点生成深度图,并通过附加的单目网络估计深度,然后将特征转换为BEV视角进行预测。CMKD [11] 开发了一种跨模态方法,将LIDAR模态的知识传递到图像。除了深度图和LIDAR之外,AutoShape [33] 等方法利用CAD模型生成密集关键点以缓解稀疏约束。

利用额外数据的方法由于信息量增加,总是表现出优越的性能。然而,复杂的传感器配置和计算开销限制了它们在工业中的实际应用。

样本选择在2D/3D检测中的应用

根据如何分配样本,2D目标检测方法主要可以分为两类。基于锚点的方法 [7, 42, 43] 基于目标框和预定义锚点之间的交并比(IOU)分配正样本,而无锚点的方法 [27] 基于特定规则。ATSS [59] 通过基于目标的统计特性设置自适应IOU阈值来分配样本。MTL [17] 通过逐步减少正样本数量来找到最佳样本点。

用于3D检测方法的2D属性样本分配策略通常遵循上述策略。许多方法 [28, 32, 60] 使用这些与2D属性一致的策略来学习3D属性。方法 [34, 44] 使用ROI-Align [43] 从主干提取的目标特征来回归一个3D属性,这导致结果受到前景和背景干扰的影响。DID-M3D [40] 使用密集深度图选择正样本,这需要额外的标注。

单目3D检测中的数据增强。由于几何约束的违反,随机水平翻转 [5, 28, 63] 和光度畸变 [3, 50] 是单目3D检测中主要使用的两种数据增强方法。一些方法 [40] 使用随机裁剪和扩展来模拟深度的比例变化。然而,根据成像原理,所有深度在一张图像中具有相同的比例变化是不切实际的。一些方法 [29, 53] 使用额外的深度图来模拟相机沿z轴的前后移动。然而,由于视差和深度图误差,这些方法引入了大量噪声和畸变的外观特征。实例级别的复制粘贴 [29] 也被用作3D数据增强方法,但由于复杂的手动处理逻辑,仍然不够现实。

3. Methodology

单目3D目标检测从单个RGB图像中提取特征,估计图像中每个目标的类别和3D边界框。3D边界框可以进一步细分为3D中心位置(x, y, z),尺寸(h, w, l)和方向(偏航角)θ。物体的滚动角和俯仰角设置为0。

在这项工作中,我们提出了一种新颖的可学习样本选择(LSS)模块来优化单目3D目标检测过程。MonoLSS的整体架构如图2所示,主要包括2D检测器、ROI-Align、3D检测头和LSS模块。

图2.MonoLSS 框架概述。首先,使用2D检测器与ROI-Align相结合来生成物体特征。然后,6个头分别预测3D属性(深度、尺寸、方向和3D中心投影偏移)、深度不确定性和对数概率。最后,可学习样本选择(LSS)模块自适应地选择样本并作用于损失计算。

根据网络预测的对数图,LSS模块可以在训练时自适应选择3D属性的正样本。在推理过程中,LSS模块根据对数图中的最高对数概率选择最佳的3D属性。

3.1. 可学习的样本选择

3.2. 损失函数和训练策略

3.3. 用于空间重叠模拟的MixUp3D

由于严格的成像约束,在单目3D检测中,数据增强方法受到限制。除了光度畸变和水平翻转外,大多数数据增强方法由于破坏了成像原理而引入了模糊特征。此外,由于LSS模块关注对象级特征,因此不修改对象自身特征的方法对LSS模块的效果不够显著。

得益于MixUp的优势,可以增强对象的像素级特征。我们提出了MixUp3D,它为2D MixUp添加了物理约束,使新生成的图像在本质上是空间重叠的合理成像。具体来说,MixUp3D仅违反物理世界中对象的碰撞约束,同时确保生成的图像符合成像原理,从而避免任何模糊

传统的MixUp方法在2D像素坐标系中按比例混合不同的图像,而不考虑生成的图像是否与3D物理世界的成像原理兼容。例如,具有不同焦距或分辨率的两张图像总是直接混合在一起,这会引入深度模糊。另一个例子是,从不同视角拍摄的图像混合会导致视角混淆。本文对MixUp图像施加严格约束,以确保它们具有相同的焦距、主点、分辨率和摄像机视角(俯仰角和横滚角)。这使得利用不同时间和位置拍摄的图像模拟单个摄像机在一个时间点捕捉的具有空间重叠的图像成为可能。一般来说,相同焦距的图像意味着它们的主点和分辨率也是相同的。同时,这些图像都是由车载针孔相机拍摄的,其xc轴和zc轴与地面平行,视角相似。因此,MixUp3D只需要确保图像的焦距相同。MixUp3D的示意图如图3所示。

  • 9
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值