速度和性能我全都要!CrossDTR:基于多目深度引导的3D目标检测

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心技术交流群

后台回复【3D检测综述】获取最新基于点云/BEV/图像的3D检测综述!

论文链接:https://arxiv.org/pdf/2209.13507.pdf

代码链接:https://github.com/sty61010/CrossDTR

摘要

为了实现自动驾驶中低成本的精确3D目标检测,目前提出了许多基于多目相机的方法,并解决了单目的遮挡问题。然而由于深度估计误差较大,现有的多目方法通常在困难小目标(如行人)沿深度射线方法上生成多个边界框,导致召回率极低。此外,现有结合深度预测的多目算法通常都是大模型,无法满足自驾应用的实时要求。为了解决这些问题,论文提出CrossDTR,用于3D目标检测的跨视图(Cross-view)和深度引导(Depth-guided)Transformers算法。首先,论文的轻量级深度预测器设计用于在监督期间生成精确的目标级稀疏深度图和低维深度嵌入,而无需额外的深度数据集。其次,开发了一种跨视图深度引导Transformer,用于融合不同视图的深度嵌入和图像特征,并输出3D检测结果。大量实验表明,CrossDTR在行人检测方面大大超过了现有的多目方法10%,在mAP和NDS上提升3%。此外,计算分析表明,CrossDTR比以前的方法快5倍。

介绍

从传感器信息中检测三维空间中的目标,即3D目标检测,对于各种智能系统(如自动驾驶和室内机器人)至关重要。以前的工作往往依赖于来自不同传感器的准确深度信息,如激光雷达[1]–[3]和双目信息[4]、[5],以实现卓越的性能。近年来,为了以低成本实现高质量的检测,提出了几种基于视觉的方法。其中,由于单目检测[6]-[12]存在遮挡和跨视图信息不足的问题,将视觉信息从多目转换为BEV[13]-[21]的方法,即多目方法,越来越受到关注。

尽管这些多目方法在跨视图信息和鸟瞰视图表示方面取得了一些进展[14]–[16]、[22]–[24],但论文观察到,现有算法要么因为深度不准确而导致小目标的召回率极低,要么因为复杂的深度预测模块而导致计算量太大。具体来说,虽然一些融合多目信息的方法[13]-[21]很容易在图像中定位小目标的像素坐标,但它们很难估计物体与图像平面的精确距离。因此,当检测到小物体时,这些方法倾向于在候选区域沿深度方向的射线预测一排假阳性边界框(如图1所示),导致感知召回率较低。此外,以前的一些单目方法使用复杂深度预测模块[25]、[26]或大规模深度预训练主干[27]-[30]来提供深度线索。然而,直接将其应用于现有的多目方法,通常由大型网络架构组成,无法满足自驾应用程序的实时要求。根据以上两个观察结果,论文得出结论,需要一个模块来从多个摄像头获取深度线索,并实时融合来自不同视图的深度和图像信息。

37265d8b8d41c85438717216a831a47a.png

为了实现这一目标,论文提出了CrossDTR,这是一种新型的端到端跨视图和深度引导Transformer网络,用于多摄像机3D目标检测,如图2所示。为了有效地获得下游3D目标检测的深度提示,论文引入了一种轻量级深度预测器,为每个视图生成精确的深度图。进一步,为了有效地融合多目相机的深度和图像信息,提出了cross-view and depth-guided transformer。简而言之,Transformer Encoder用于将高分辨率深度图压缩为低维深度嵌入,Transformer Decoder在深度和多目图像信息之间进行cross-attention。

论文的主要贡献如下:

  • 构建了一个新的交叉视图和深度引导感知框架CrossDTR,将准确的深度线索插入到多目检测方法中;

  • CrossDTR的深度引导模块可以缓解小目标沿深度方向的假阳性预测问题;

  • CrossDTR在nuScenes数据集[34]上实现了最先进的3D检测性能,与现有的多目或深度引导方法相比,计算量更少。

方法

d1b41d1638adc1b7781cd3cab88e91a8.png

整体框架

图2展示了CrossDTR的算法框架。网络输入多目图像,[45]用作视觉特征提取主干,为每个视图提取特征。之后将图像特征输入至深度预测模块。给定单目图像特征,深度预测器通过Transformer编码器生成低维深度嵌入和深度图。在训练期间,CrossDTR以监督学习的方式最小化预测深度图和稀疏深度图两者之间的差异。最后,图像特征和深度嵌入都被送入Cross-view和depth-guided Transformer解码器中,进行cross-view attention和cross-depth attention并输出最终3D检测结果。

目标级稀疏深度图

与以往深度引导单目方法不同,在训练期间需要昂贵的密集深度图,CrossDTR仅利用原始激光雷达数据提供的稀疏深度线索[31],更具成本效益。具体来说,论文首先从每个视图生成目标级稀疏深度图,然后使用这些稀疏深度信息训练3D网络。虽然稀疏深度图包含的信息较少,但足以指导3D检测器,因为它们提供了在具有相对深度值的某些区域中存在目标的提示。下面详细介绍深度生成过程。

首先定义从LiDAR坐标到相机坐标的变换函数,如下所示:

a7a2b2b5533eb21d9be00be3b1cad56b.png

使用上式将每个3D框的中心点和角点转换到相机视图中。得到对应中心点、中心点的深度值及目标框中心点在相机中的坐标,如下所示:

147d5f8a5e5331f75abcb80501f6cfa0.png

接下来收集每个相机中有效的2D框及其深度值,有效的2D框应在对应相机及其深度中部分或完全可见。基于收集的结果构建目标级稀疏深度图。首先,原始深度图被初始化为零。然后,对于深度图中的每个像素,如果像素位于目标的边界框中,则将像素深度值设置为目标中心点的深度。如果像素在多个框中,则将其设置为最近的边界框。最后,通过对每个相机的深度图采用线性递增离散化(LID)[46],得到目标级稀疏深度图。

深度预测器

受先前深度引导方法[31]、[32]和深度估计方法[10]、[14]、[15]、[22]、[23]的启发,论文使用MonoDETR的depth Predictor,以从目标级稀疏深度图中学习深度信息。为了节省模型的内存,论文使用由卷积层构建的轻量级结构来预测深度分布,并将depth bins的数量匹配为3D位置嵌入[17],[18]。给定图像特征,使用轻量级网络预测每个深度图中的深度logits和深度概率。此外,论文利用Transformer encoder 将图像特征编码为具有多头部注意的深度嵌入:

f67df7285d20bf3a09fe4955c0034857.png

Cross-view and Depth-guided Transformer

由于Transformer已成功用于融合不同的模态,因此论文采用它来结合图像特征和深度嵌入。具体来说使用multi-attention decoder layer以对图像特征和深度嵌入进行cross attention。

Cross-view Attention:论文根据PETR[17]的方法进行cross-view attention,并将图像特征作为key和value,并使用3D positional embedding[17]作为query positional embedding。

Cross-depth Attention:以前的方法[17]、[18]只使用视觉信息,因此缺乏检测器的深度提示。论文在深度嵌入检测器时插入深度提示[31],以便为小目标提供更详细的信息。然后,论文选择深度嵌入作为多头部注意的key和value。这些深度嵌入不仅可以在depth Predictor的单个视图中学习像素级深度提示,还可以在交叉注意机制中考虑来自其他视图的深度信息。

损失

对于3D目标检测任务,采用Focal loss和L1损失分别计算分类损失和回归损失。

Depth Distribution Network Loss:为了在预定义深度图上进行深度引导方法,论文参考CaDDN[10]并采用深度分布网络损失(DDN损失)来规范预测深度图值和预测深度图逻辑。根据CaDDN[10],该将损失计算如下:

f203098bcd0958e2e7e7536749a1885b.png

最终训练损失如下:

5dafdfc79bd8f72e1781335d6c104665.png

实验

基线:论文在nuScenes上展开实验。并将CrossDTR与单目和多目方法进行了比较。CenterNet[7]、FCOS3D[11]和PGD[12]代表单目方法,而DETR3D[13]、PETR[17]和BEVDet[14]作为多目方法的基线。请注意,为了进行公平比较,只采用这些方法的性能,而不采用诸如TTA[11]、[12]、CBGS[49]和过采样[49]等技巧。此外,还包括与轻量级BEVFormer[16](来自其官方仓库)的比较,后者不编码额外的时间信息。

定量结果

与SOTA对比:如表一所示,CrossDTR优于其他之前的方法,在验证集上达到了mAP和NDS的新SOTA [34]。首先,CenterNet[7]、FCOS3D[11]和PGD[12]是经典的单目基线。CrossDTR在mAP上超过3%,在NDS上超过2%。此外,与SOTA 多目方法相比,CrossDTR在mAP和NDS上仍超过所有方法至少1.3%和0.5%。Swin-T代表Swin Transformer[50],它是表一中最强的主干。CrossDTR使用ResNet101的方法也比使用Swin-T[50]的BEVDet[14]好。并且,CrossDTR需要最少的计算资源(483.9 GFLOP和5.8 FPS)。

6f8f9f772b56bdb94f0609b38b235084.png

与轻量多目算法对比:表二展示了CrossDTR与多目算法的对比。由于论文在计算资源有限的验证集上进行实验,因此选择较小的主干ResNet50[45]从分辨率为512 x 1408的输入图像中提取特征。CrossDTR超过了所有以前的多目算法,即使是基于ResNet101 [45]的DETR3D[13]和具有时序信息的BEVFormer[16]。CrossDTR在mAP和NDS上分别超过了PETR 的方法0.9%和1.1%。此外,CrossDTR的参数量更少,运行速度更快。结果表明,CrossDTR有实时应用的潜力。

21f4a93d876a04fa115ba9b8b3aaad22.png

消融实验

表三显示了我们的跨视图和深度引导模块的有效性。论文进行了消融实验来验证深度嵌入(DE)和深度分布网络损失(DDN损失)在验证集上的有效性。并将不同的架构与基线模型PETR进行了比较[17]。结果表明,当将depth embeddings嵌入到cross-attention中时,mAP和NDS的性能分别提高了0.9%和0.2%,而完整模型在mAP上和NDS上都达到了最佳性能,分别提高了1.3%和0.5%。

af189a9252c321de3feed2ce793b0747.png

假阳预测结果

为了验证CrossDTR是否可以解决假阳性问题,论文考虑平均精度(AP)。表四展示了验证集上具有不同距离阈值的行人类别的AP。CrossDTR大幅超越了基线。此外,图4说明了CrossDTR的总体性能在所有阈值上都超过了基线,从而解决了误报问题。红色、蓝色和绿色分别表示距离阈值为0.5、1.0和4.0。请注意,初始垂直红线是由不稳定的训练和重叠的边界框造成的。

a2f98347bb21d7905f9d1c7c5436eb91.png e734a6cd678d335f1e563fce4237dec6.png

定性结果

图3展示了定性结果。橙色和蓝色边界框分别表示GT和预测。如图3所示,基于ResNet50的PETR[17]和具有深度预处理的VoVNetV2[27]–[30]的PETR[17]仍然可以预测小目标沿深度方向的一排假阳性预测。由于深度预训练的主干通常在外部数据集上进行预训练,并且相机参数不同,所以这些方法的深度估计性能较差,进而导致处理假阳的能力不足。而CrossDTR使用了内部数据集的深度信息,因此可以大幅度缓解这个问题[34]。

fe521a7504dfcb06cbf557aea77bed4e.png

结论

本文中设计了一种端到端的 Cross-view 和 Depth-guided Transformer,称为CrossDTR用于3D目标检测。为了解决以前的多目方法中普遍存在的假阳边界框问题,论文提出了一种由生成的逐目标稀疏深度图监督的轻量级深度预测器来生成低维深度嵌入。此外,为了将来自不同视图的图像和深度线索结合起来,开发了一种Cross-view 和 Depth-guided Transformer来有效地融合这些信息。作者认为,CrossDTR将为开发具有成本效益的实时3D目标检测算法铺平一条新路。

往期回顾

充分考虑工业真实场景!基于激光雷达相机融合的鲁棒3D目标检测benchmark

自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、多传感器融合、SLAM、光流估计、轨迹预测、高精地图、规划控制、AI模型部署落地等方向;

加入我们:自动驾驶之心技术交流群汇总!

自动驾驶之心【知识星球】

想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D目标检测、多传感器融合、目标跟踪、光流估计、轨迹预测)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球(三天内无条件退款),日常分享论文+代码,这里汇聚行业和学术界大佬,前沿技术方向尽在掌握中,期待交流!

fdeb765c6c30c67045f99ceec6b2ddc1.jpeg

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值