CVPR2023 | 3D目标检测在常见极端场景下的鲁棒性基准(激光+视觉27种方案)

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心【BEV感知】技术交流群

后台回复【3D检测综述】获取最新基于点云/BEV/图像的3D检测综述!

3D目标检测是自动驾驶中感知周围环境的一项重要任务,尽管性能优异,但现有的3D检测器对恶劣天气、传感器噪声等造成的真实世界的破坏缺乏鲁棒性,这引发了人们对自动驾驶系统安全性和可靠性的担忧。为了全面而严格地衡量3D检测器的损坏鲁棒性,本文考虑到真实世界的驾驶场景,为激光雷达和相机输入设计了27种常见的损坏。通过在公共数据集上综合这些损坏,建立了三个损坏鲁棒性基准——KITTI-C、nuScenes-C和WaymoC。然后,我们在24个不同的3D对象检测模型上进行了大规模实验,以评估其鲁棒性。基于评估结果,得出了几个重要的发现,包括:1)运动级破坏是导致所有模型性能显著下降的最具威胁性的破坏;2) 激光雷达相机融合模型表现出更好的鲁棒性;3) 仅相机模型极易受到图像损坏的影响,这表明激光雷达点云的不可或缺;

代码链接:https://github.com/kkkcx/

此外,汽车人也正式推出了国内首个BEV感知视频教程(纯视觉+多传感器融合方案),主讲老师上海交通大学在读博士柒柒,深耕自动驾驶算法领域多年,欢迎扫码加入学习!

折上折!扫码领取课程优惠券学习

5267d9fb499235b146194ef67ade301a.png

即将恢复原价599!

领域背景

作为自动驾驶的一项基本任务,3D目标检测旨在通过预测其类别和相应的3D框来识别周围环境中感兴趣的目标(例如,车辆、行人或骑自行车的人)。激光雷达和相机是用于3D目标检测的两种重要类型的传感器,前者以稀疏点云的形式提供道路物体的深度信息,而后者以彩色图像的形式捕捉场景的丰富语义信息。基于这两种模式的互补性,3D检测模型可分为仅激光雷达、仅相机和激光雷达相机融合模型。由于自动驾驶对安全至关重要,因此在部署之前评估3D目标检测器在不同情况下的稳健性至关重要。

尽管3D目标检测的最新进展激发了一基准的显著改进(如KITTI、nuScenes和Waymo),但基于数据驱动的深度学习方法的现有模型往往很难推广到比如,恶劣天气、传感器噪音和不常见目标,对安全可靠的自动驾驶构成了巨大障碍。为了进行稳健性评估,最近的工作构建了道路异常的新数据集或在极端天气条件下。尽管如此,由于数据收集成本高,很少出现corner-case或恶劣天气,它们通常较少。其它工作综合了clean数据集上的常见损坏,以衡量图像分类和点云识别的鲁棒性,但只考虑了几个简单的损坏,这对于3D目标检测来说可能是不充分和不现实的。因此,考虑到不同的驱动场景,综合表征不同的损坏,并在统一的框架内公平评估现有模型的稳健性,仍然具有挑战性!

c3cca13a298dd340eb7b12a9d02e964e.png

本文系统地为激光雷达和相机传感器设计了27种3D目标检测中的常见损坏,以全面、严格地评估当前3D目标检测器的损坏鲁棒性。损坏分为天气、传感器、运动、对象和对齐级别,涵盖了现实世界中的大多数损坏情况,如图1所示。它们中的大多数是专门为自动驾驶设计的(例如,运动级别的),以前从未进行过探索。根据[25],每种损坏都有五种严重程度,导致总共135种不同的情况。通过将它们应用于典型的自动驾驶数据集KITTI、nuScenes和Waymo,作者建立了三个损坏鲁棒性基准——KITTI-C、nuScines-C和Waymo-C。希望这些大规模的损坏数据集可以作为通用数据集,公平、全面地基准测试3D目标检测模型的损坏鲁棒性,并促进未来的研究!

本文进行了大规模实验来比较现有3D目标检测模型的损坏鲁棒性,在KITTI-C上评估了11个模型,在nuScenes-C上评估10个模型,以及在Waymo-C上评估了3个模型。模型种类繁多,具有不同的输入模态、表示方法和检测头。基于评估结果,论文发现:

1)3D目标检测器的破坏鲁棒性与其清洁度高度相关;

2) 运动级别的损坏对模型性能的损害最大,而以前很少进行研究;

3) 激光雷达相机融合模型更鲁棒,但在图像腐蚀和融合模型的点云腐蚀下的鲁棒性之间存在权衡。

基于输入模态,将3D目标检测模型分为仅激光雷达、仅相机和激光雷达相机融合模型。仅限激光雷达的模型:激光雷达点云本质上是稀疏、不规则和无序的。为了学习有用的表示,基于体素的方法将点云投影到紧凑的网格中。通常,VoxelNet将点云光栅化为体素,这些体素由PointNets和3D CNNs组成。为了加快速度,SECOND引入了稀疏的3D卷积,PointPillars将体素拉长为pillar。其它作品利用物体部件或形状信息来提高性能。基于点的方法将原始点云作为输入,并对每个点进行预测。PointRCNN提出了一个两阶段框架,该框架首先生成3D proposal,然后在规范坐标中细化proposal。3DSSD是一种具有融合采样策略的轻型单级检测器,为了两全其美,然后探索了基于点-体素的方法。PVRCNN集成了3D Voxel CNN和基于PointNet的set abstraction,以有效地创建高质量的proposal。

仅camera做输入的模型:由于缺乏深度信息,基于图像的3D目标检测具有挑战性,但考虑到低成本的优势,它受到了广泛关注。最直接的方法是采用单目检测方法,并在相机之间应用后处理。例如,Mono3D生成按语义特征评分的3D目标proposal,SMOKE将单个关键点估计与回归的3D变量相结合。为了解决单目方法中后处理的局限性,多视图方法融合了中间层中所有相机的信息。ETR3D采用了基于transformer的检测器,该检测器通过将目标查询投影到图像上来获取图像特征,BEVFormer利用基于BEV查询的多视图图像的时空信息。

激光雷达-相机融合模型:为了利用激光雷达和相机输入的互补信息,也对融合方法进行了广泛研究。根据[36],将新开发的方法分为point级、proposal级和统一表示融合方法,point-level方法利用语义图像特征增强激光雷达点云,然后将现有的仅激光雷达模型应用于3D检测,包括PointPainting、EPNet、PointAugmenting、Focals-Conv等。高级融合方法生成3D proposal,并将图像特征集成到这些proposal中。FUTR3D和TransFusion采用了基于查询的transformer解码器,该解码器将图像特征与目标查询相融合。此外,BEVFusion将图像特征和点云特征统一在BEV表示空间中,这是一种新的融合策略!

一些鲁棒benchmark

深度学习模型对对抗性示例、常见损坏和其它类型的分布变化缺乏鲁棒性。在自动驾驶中,许多工作收集新的数据集评估模型在不同条件下的鲁棒性。例如,STF、CADC和Ithaca365数据集是在不利天气下收集的,尽管前人做出了努力,但由于稀有数据的高收集成本,这些数据集仅涵盖有限的场景。此外,作为主要用于评估的数据集,这些数据集与大规模训练数据集有很大的领域差距,因为它们是在不同的城市收集的,具有不同的车辆和传感器,这使得我们很难检查不同因素(如天气与城市)对模型稳健性的影响。

一个比较好的方向是在干净的数据集上合成真实世界的损坏数据,以衡量模型的鲁棒性。例如,ImageNet-C首次被引入图像分类中,有15种损坏类型,从噪声、模糊、天气到数字损坏。类似的方法进一步应用于2D目标检测和点云识别。然而,这些研究中的许多损坏都是假设的,因此在自动驾驶的场景中是不现实的。考虑到不同的真实世界驾驶情况,为3D目标检测的鲁棒性评估建立一个全面的基准仍然具有挑战性。论文注意到,两项并行工作[33,68]也研究了自动驾驶中3D目标检测的鲁棒性。然而,他们主要考虑特定类型的3D检测模型,并包括评估较少的有限类型的损坏!

3D检测数据中的损坏分类

现实世界中的损坏源于自动驾驶中的各种场景,基于这些场景,将损坏系统地分类为天气、传感器、运动、目标和对齐级别。考虑到真实世界的驾驶场景,本文确定了每个级别的常见损坏类型,总共27种不同的损坏,如图1所示。其中,一些损坏同时应用于两种模式,如天气级别的损坏,而其它损坏则设计用于单个模式,如传感器级别的损坏。在图2中看到了一个子集的损坏,天气级损坏:自动驾驶中通常会遇到天气变化,这会极大地干扰激光雷达和相机输入。例如,雾降低了图像中物体的可见性,并由于衰减和后向散射导致散射点。因此,根据正常天气下收集的数据训练的3D检测器在恶劣天气下往往表现不佳。为了研究天气变化下的稳健性,本文考虑了4种天气级别的破坏:雪、雨、雾和强阳光。对于激光雷达,作者采用基于物理的方法来模拟正常天气下雨、雪和雾对点云的影响。通过将强高斯噪声应用于沿太阳方向的点来模拟强烈阳光的影响,对于相机,应用图像增强来模拟视觉逼真的天气!

传感器级损坏:当传感器受到许多内部或外部因素(例如,传感器振动、照明条件和反射材料)的影响时,会对捕获的数据产生影响,作者设计了10个实际的传感器级损坏,7个用于点云,3个用于图像。点云损坏包括:密度降低、截止、激光雷达串扰、FOV损失、高斯噪声、均匀噪声和脉冲噪声。密度降低模拟了典型数据集中常见的缺失点,当激光脉冲在局部区域(例如水坑)中没有回波时,就会发生切割,并通过在随机选择的区域中滴点来模拟。当多个激光雷达在近距离工作时,会发生激光雷达串扰,这是通过将强高斯噪声应用于一小部分点来模拟的。FOV lost模拟了由遮挡引起的激光雷达的有限视场,此外,由于激光雷达的测距不准确性,论文考虑了分别将高斯噪声、均匀噪声和脉冲噪声应用于点坐标的3种噪声破坏。这3种图像损坏包括:高斯噪声、均匀噪声和脉冲噪声,以模拟由于低照明条件或相机缺陷导致的视觉噪声模式。尽管论文分别为激光雷达和相机设计传感器级损坏,但它们可能同时发生在两个传感器上,从而进一步影响激光雷达相机融合模型!

运动级损坏:本文介绍三种运动级损坏,运动补偿、运动目标和运动模糊,它们在现实世界中是实用的,并且是首次研究。车辆自我运动会导致点云失真,因为帧中的点不是在同一坐标系中获得的。为了获得精确的点云,通常在定位信息的帮助下使用运动补偿,然而这个过程可能会引入噪声,称之为运动补偿损坏,通过将小的高斯噪声添加到车辆自我姿态的旋转和平移矩阵来模拟。移动目标损坏表示目标在场景中快速移动的情况,它可能会导致目标的3D边界框内的点偏移,并模糊目标的图像block。最后一个损坏是camera图像上的运动模糊,这是由驾驶过快引起的!

对象级损坏:现实世界中的目标总是有各种形状和材料,这使得正确识别它们具有挑战性,观看方向也可能导致对目标的错误识别。在此基础上,本文引入了8种目标级损坏:局部密度降低、局部Cutout、局部高斯噪声、局部均匀噪声、局部隐含噪声、Shear、缩放和旋转。前五种损坏仅应用于激光雷达点云,以模拟不同目标材质或遮挡造成的失真,正如其名称所示,这些损坏仅对目标的三维边界框内的局部点集进行更改。最后三种损坏模拟目标的形状变形,“旋转”也可以模拟目标的不同视图方向,它们可以影响激光雷达和相机输入。为了对两种模态进行一致的失真,本文对属于场景中目标的点和图像block应用相同的Shear、缩放或旋转变换!

对齐过程的损坏:通常假设激光雷达和相机输入在输入到融合模型之前很好地对准。然而,这种假设在长时间驾驶过程中可能是无效的,例如,ONCE数据集的收集几乎每天都需要重新校准,以避免不同传感器之间的错位。在实践中,自动驾驶汽车可能会遇到空间错位和时间错位,空间错位可能是由车辆颠簸引起的传感器振动引起的。通过在校准矩阵中添加随机噪声来模拟它,当传感器的数据被卡住或延迟时,会发生时间错位。论文保持一种模态的输入与前一时间戳的输入相同,以模拟两种模态之间的时间错位。

关于合成损坏和现实世界损坏之间差距的讨论。现实世界中的损坏可能来自多种多样的来源,例如,自动驾驶汽车可能同时遇到恶劣的天气和不常见的物体。尽管不可能列举所有现实世界中的情况,但本文系统地设计了27种类型,分为五个级别,可以作为一个实用的测试平台来进行可控的稳健性评估。特别对于天气情况,本文采用了最先进的模拟方法,这些方法被证明可以很好地近似真实数据。尽管不可避免地存在差距,但论文也验证了在合成天气下的模型性能与在不利天气下的实际数据一致。

损坏数据鲁棒基准

为了全面评估3D目标检测模型的损坏鲁棒性,本文基于自动驾驶中最广泛使用的数据集KITTI、nuScenes和Waymo建立了三个损坏鲁棒性基准,并将上述损坏应用于这些数据集的验证集,并分别获得KITTIC、nuScenes-C和Waymo-C。请注意,尽管在数据集的少数样本中自然会出现几种破坏,但仍然将合成破坏应用于所有数据,以公平地比较不同破坏下的模型稳健性,并减少过滤数据的工作量。此外,本文构建了一个由所有损坏组成的统一工具包,也可以用于其他数据集。

1)KITTI-C

KITTI数据集包含3712个训练样本、3769个验证样本和7518个测试样本。由于无法访问测试集,KITTI-C是在验证集上构建的。KITTI-C中有24个类损坏,每个损坏具有5个严重性。标准评估是在难度为“容易”、“中等”和“困难”的汽车、行人和自行车类别上进行的。评估指标是平均精度(AP),将原始验证集上的模型性能表示为AP_clean,对于每个严重性s的每个损坏类型c,采用与相同的度量来衡量模型性能。然后,通过对所有损坏类型和严重程度取平均值来计算模型的损坏鲁棒性,如下所示:

3c4af6db016c428d276d2cd42dcec436.png

其中C是评估中的损坏的集合,注意,对于不同类型的3D目标检测器,损坏集合可能是不同的(例如,不评估仅用于LiDAR模型的相机噪声),因此,的结果在不同类型的模型之间是不可直接比较的,并且在每种损坏下都进行细粒度分析。

论文还通过测量性能下降的百分比来计算相对损坏误差(RCE):

d457b980cfaf30463be5c7fc6b12d61e.png

本文选择了11个在KITTI上训练的具有代表性的3D目标检测模型,包括6个激光雷达模型:SECOND、PointPillars、PointRCNN、PartA2、PV-RCNN和3DSSD;3个camera-only模型:SMOKE、PGD和ImVoxelNet。以及2个激光雷达相机融合模型:EPNet和Focals-Conv,关于它们的表示和检测头的细节如表1(a)所示。

98fe70fd16cceddf02dc635fdc2bd4c8.png

2)nuScenes-C

nuScenes数据集包含1000个持续时间约为20秒的序列,激光雷达频率为20 FPS,每0.5秒提供一次box注释。每帧有一个点云和六个图像,覆盖360◦ 水平视野。总共有40k个帧,分为28k/6k/6k个帧用于训练、验证和测试。由于数据集提供了车辆姿态和时间戳的完整注释和信息,因此可以模拟所有损坏。本文将所有27个损坏应用于具有5个严重程度的nuScenes验证集,以获得nuScenes-C。

对于3D目标检测,主要的评估指标是对10个目标类别计算的平均精度(mAP)和nuScenes检测分数(NDS),mAP是使用2D中心距离而不是3D IoU来计算的,NDS指标将mAP和其它方面(如规模、方向)合并为一个统一的分数。与KITTI-C类似,本文将验证集上的模型性能表示为和,并通过对所有损坏和严重程度进行平均来测量损坏鲁棒性和,还计算了mAP和NDS度量下的相对损坏误差RCE,类似于等式(2)。在nuScenes-C上,本文选择了10个3D检测模型,包括3个仅激光雷达的模型:PointPillars、SSN和CenterPoint;4个仅camera的模型:FCOS3D、PGD、DETR3D和BEVFormer;以及3种激光雷达相机融合模型:FUTR3D、TransFusion和BEVFusion,模型细节如表1(b)所示!

411f17e818a44ae063c0bede5d3e0826.png

3)Waymo-C

Waymo开放数据集由798个用于训练的场景和202个用于验证的场景组成。与nuScenesC类似,Waymo-C是通过将所有27个损坏应用于具有5个严重性的Waymo验证集来构建的,考虑到航向精度,官方评估指标为mAP和mAPH。我们类似地计算了Waymo-C上的损坏鲁棒性和相对损坏误差,由于许可协议的原因,没有公开的预训练模型。因此本文在训练数据的子集上训练仅激光雷达的PointPillars、仅camera的BEVFormer和激光雷达的相机融合TransFusion,以进行鲁棒性评估!

实验结果

1)KITTI-C上的结果

在表2中展示了KITTI-C上11个3D目标检测模型的破坏鲁棒性,其中只报告了中等难度的汽车类的结果,而将其它类和困难的完整结果保留在附录B。总体而言,损坏鲁棒性与clean准确性高度相关,因为具有较高的模型(例如,PV-RCNN、Focals-Conv)也实现了较高的。在图3中进一步显示了这些模型在每一级损坏下的相对误差RCE。根据评估结果,提供以下分析:

d60a8f56b691e8c49f0eb0cca0556509.png

损坏类型的比较:根据表2和图3,可以观察到,天气级别和运动级别的损坏对仅激光雷达和融合模型的性能影响最大,而所有损坏都会导致camera-only模型的性能显著下降。例如,“雪和雨”导致所有模型的RCE超过35%,这表明了恶劣天气对3D目标检测的威胁。此外,运动物体和Shear 对所有模型来说也是具有挑战性的,而空间错位对融合模型有很大影响。大多数模型在传感器级和目标级损坏下表现出可忽略不计的性能下降,这主要是由于它们在训练数据集中普遍存在!

3D目标检测器的比较:由于纯相机模型的性能较差,这里主要比较纯激光雷达和激光雷达相机融合模型。论文注意到,对于影响两种模式的损坏(例如,雪、移动物体、shear),仅使用激光雷达的模型会带来更好的性能,但对于那些只破坏点云(例如传感器噪声)的模型,融合模型更具竞争力。这是因为准确的图像数据可以赋予融合模型在点云噪声下更好的鲁棒性,但当图像也被破坏时,融合模型会受到两种输入的影响,导致性能较差。为了进一步验证这一点,论文将传感器噪声同时应用于激光雷达和相机输入。在图4中显示了Focals Conv在激光雷达和相机噪声共存的情况下的性能,可以看出,在存在激光雷达和相机噪声的情况下,Focals Conv的精度进一步下降,导致其性能比不受相机噪声影响的仅使用激光雷达的模型差。结果表明,尽管融合模型对一种模态的噪声更具鲁棒性,但它们可能会受到多个传感器的破坏!

d1809597bd52df2857f69a0be04138de.png

纯camera model的比较:尽管仅camera检测器受到损坏的影响很大,但发现多视图方法在clean和损坏精度方面都优于单目方法。从图5中可以看出,FCOS3D和PGD的总体性能下降分别为57%和54%,而DETR3D和BEVFormer的总体性能分别为46%和45%。由于单目方法在不考虑3D场景结构的情况下直接从单个图像中预测3D目标,因此它们更容易产生噪声,并且表现出较差的性能。此外,BEVFormer比DETR3D性能更好,尤其是在目标级损坏(例如,shear、旋转)下,因为它可以捕获BEV空间中目标的语义和位置信息,而不受不同目标形状的影响!

19f6bb09dd9228dd48be5e2502a63daa.png

激光雷达相机融合模型的比较:基于上述分析,融合模型在nuScene-C上表现出了优越的鲁棒性,通过仔细检查它们的性能,可以发现在图像损坏和点云损坏下的鲁棒性之间存在权衡。具体而言,在图像的高斯、均匀和隐含噪声下,FUTR3D的性能下降最大(平均12.9%),而TransFusion和BEVFusion的性能下降幅度分别为2.5%和5.3%。然而,在显著扭曲点云的运动补偿下,FUTR3D获得了31.87%的最高mAP,而TransFusion只有9.01%的mAP。这种权衡背后的原因是,融合模型对图像或点云的依赖程度不同,导致在不同传感器的相应损坏下,鲁棒性不一致。

讨论和结论

本文系统地设计了27种3D目标检测中的常见损坏,以衡量现有3D目标检测器的损坏鲁棒性。通过综合公共数据集上的损坏,建立了三个损坏鲁棒性基准——KITTI-C、nuScenes-C和Waymo-C,通过在24个不同的3D目标检测模型上进行大规模实验,得出了一些重要的发现,总结如下:

1) 通常,3D目标检测模型的破坏鲁棒性在很大程度上与其干净性能相关。

2) 在所有损坏类型中,运动级损坏对模型性能的影响最大,这对自动驾驶构成了重大威胁,天气级别的破坏对在正常天气下训练的模型也有影响。

3) 在所有3D检测器中,激光雷达相机融合模型具有更好的破坏鲁棒性,尤其是在那些只对一种模态应用失真的情况下。然而,在这种情况下,它们也会受到两个传感器的损坏,导致性能下降。此外,在图像损坏和融合模型的点云损坏下的鲁棒性之间存在权衡。

4) 仅camera模型更容易受到常见损坏的影响,这表明激光雷达点云对于可靠的3D检测是必不可少的,或者有必要开发更稳健的仅camera模型。

参考

[1] Benchmarking Robustness of 3D Object Detection to Common Corruptions in Autonomous Driving.

视频课程来了!

自动驾驶之心为大家汇集了毫米波雷达视觉融合、高精地图、BEV感知、传感器标定、传感器部署、自动驾驶协同感知、语义分割、自动驾驶仿真、L4感知、决策规划、轨迹预测等多个方向学习视频,欢迎大家自取(扫码进入学习)

08c08b12e6bd626535b4e431cb0b3969.png

(扫码学习最新视频)

国内首个自动驾驶学习社区

近1000人的交流社区,和20+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D目标检测、Occpuancy、多传感器融合、目标跟踪、光流估计、轨迹预测)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

522d243bb4594b4d03b1aaf2bd5cd89d.jpeg

自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向;

69e658271c14a952b79f63cefc069c36.jpeg

添加汽车人助理微信邀请入群

备注:学校/公司+方向+昵称

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值