KITTI & Waymo双SOTA!基于稠密体素多模态融合的3D目标检测

作者 | 花椒壳壳  编辑 | 汽车人

原文链接:https://zhuanlan.zhihu.com/p/489021200

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心技术交流群

后台回复【3D检测综述】获取最新基于点云/BEV/图像的3D检测综述!

论文标题:Dense Voxel Fusion for 3D Object Detection

作者单位:University of Toronto Robotics Institute

论文:https://arxiv.org/abs/2203.00871

动机:点云低密度区域的检测结果比较差(远距离的时候),如何利用稠密的图像的特征是解决这个问题的核心。

步骤

  • (1)训练的时候有3D点云和3D框,将3D框投影到图像上,获得2D框(前景点),然后使用GT Samples对点云进行数据增强,在3D点云场景中插入一些3D object,这些插入的3D object也要投影到图像上,但是不是全部投影上去,有一个随机百分百的Dropout,随机投影到图像上一些点,按照作者的说法,这样可以模拟在Sequential fusion中图像漏检的情况

  • (2)在测试过程中,使用任何2D目标检测器预测的2D边界盒及其相关的置信度来构建预测的前景热(Mask)。

  • (3)上面两个步骤的操作策略保证了训练和测试时候的输入都是一样的,都是点云场景和2D mask。

  • (4)然后将点云场景体素化,采用基于体素的3D backbone进行特征提取,提取到的体素特征对齐到体素中心,根据相机参数投影到相机平面,提取的特征通过2D mask的前景点概率进行加权,这个投影加权的过程在体素特征提取的每一层都操作一次(文章中有4层),用来提取多尺度的特征,获得稠密的点云和图像的特征。

  • (5)转换到BEV视角加一个检测头进行检测

INTRODUCTION

当前多模态的效果没有纯点云好的原因可能是多模态的网络不好训练,(1)参数多容易过拟合,(2)此外,不同的模态backbones以不同的速率过拟合和泛化,但端到端融合模型是以单一优化策略联合训练的,这可能导致次优解。(3)LiDAR bird -eye-view (BEV)拼接的特征视点与图像特征映射之间的不对齐(misalignment)对于三维目标检测任务并不理想,导致性能降低。

Sequential fusion:比如PointPainting这类方法,将图像预测结果加入concat到纯点云的3D检测器中,或者融合3D激光雷达探测器的输出与图像预测。

当前的Sequential fusion方法有一些缺点:(1)召回率受限于图像的预测(2)没有充分利用稠密图像预测结果(3)一些纯点云的数据增广方法没办法使用

分析了一系列当前方法不太work的原因,包括数据增广等等

One potential reason for this performance gap is that training multi-modal networks is more challenging than unimodal networks.

为了解决这些问题,我们提出了一种顺序融合方法,即稠密体素融合(DVF)。提供了多尺度、多模态的密集体素特征表示,提高了在低点密度条件下的表达能力。DVF不受图像预测的严格限制。为了增强多模态学习,我们直接用地面真实的2D包围盒进行训练,避免噪声,检测器特定的2D预测。(是不是先训练一个2D检测器的意思?)此外,我们利用激光雷达地面真值采样来模拟二维漏检,并加速训练收敛。(将一些其他场景的物体点云放到当前点云场景中,这时图像上是没有这个物体的,通过这种方式进行学习模拟图像漏检的场景)

19d50128bc6469e5a88366a34ff6d873.png
第一行显示了一个输入图像,第二行显示了一个裁剪,放大图像,在红点代表激光雷达返回投影到图像平面上,第三行显示多尺度致密体素质心投影到图像平面上,在绿色和红色点与背景和前景分别体素的特性。DVF增加了图像和激光雷达特征之间的对应数量

我们将我们的方法总结为两个主要贡献:

Dense Voxel Fusion. 我们提出了一种稠密体素融合方法,鼓励多尺度体素特征向前景对象的传播。使用稠密图像预测对体素特征进行加权(见上图),可以得到多模态稠密体素特征表示,了对遮挡和中远物体检测有提升。为了提高对图像误检测的鲁棒性,DVF减小了体素特征和图像预测的耦合程度,确保与图像漏检相关的体素特征仍然通过激光雷达backbone传播。最后,DVF没有引入新的可学习参数,可以用于任何基于体素的三维物体检测器。

Multi-Modal Training. 我们认为,在模拟图像错误检测时,使用准确的地面真相2D标签进行训练比使用错误检测进行训练效果更好。为此,我们提出使用由三维Bbox投影生成的真值前景Mask来训练DVF。为了训练高鲁棒性的融合模型,我们提出使用真值采样[33]来模拟漏检图像。这鼓励DVF学习检测LiDAR点云中被图像流遗漏的对象,并允许使用真值采样来加速收敛。此外,由于使用了模态二维包围盒,被遮挡的前景对象被隐式地用来模拟图像的假阳性。在推理期间,可以使用来自任何2D目标检测器的预测2D包围盒的像素级前景聚合。

METHODOLOGY

A. Overall Framework

该网络采用点云作为输入,训练时采用3Dground truth,推理时采用2Dground truth。将三维包围盒ground truth投影到图像平面上,模拟二维检测。2D包围盒内的像素被分配一个从均匀分布中采样的前景概率。此外,我们利用ground truth sampling将额外的对象插入到LiDAR点云中,同时在图像平面上随机去除相应的2D mask,以模拟错过的图像检测。这种训练方法仅依赖于LiDAR数据和3D对象标注,使得网络训练独立于推理时使用的2D检测器。

然后对点云进行体素化,并对体素网格应用3D稀疏卷积。每个被占用的体素特征向量被赋值体素质心位置,然后投影到图像平面上,从图像前景掩模中采样。然后使用采样的2D前景概率对体素特征进行加权。为了在图像假阴性的情况下保持检测性能,并能够从背景体素中提取上下文特征,在加权体素特征中添加一个跳过连接,这些体素特征将传递到下一个卷积块。这一过程在每个卷积层的输出上重复,以对前景掩模进行密集采样。在最后一个卷积层之后,比如在SECOND中,体素特征在Z轴上压缩,然后通过一个BEV backbone提取特征。最后,利用检测头对三维物体进行类预测和参数回归。

在测试阶段,利用任意二维目标检测器预测的边界盒及其相应的置信度值来构建前景概率热图。所提出的密集融合主干可用于提高任何基于体素的激光雷达探测器的性能,而在训练阶段不需要匹配的2D摄像机标签。

B. Dense Voxel Fusion

由于激光雷达点云固有的遮挡和稀疏性,我们提出了一种体素级的稠密融合方法,该方法通过图像数据的密集细节来增强激光雷达点云信息。我们将由任何二维目标检测器的预测二维包围盒构造的前景Mask与任何基于体素的激光雷达流融合在一起。融合发生在区域提议网络的稀疏卷积块之间 。每个block计算一个体素特征集

l是block的索引,Nl是体素数量,Cl是特征维度。每个体素特征对齐到一个三维点,是该体素的质心,然后每个体素特征根据相机参数投影到图片上,生成一些类的2D像素位置,每个像素位置通过前景掩码的2D插值对前景概率进行采样。

为了融合采样到的前景概率和体素特征,我们提出了一个融合函数,最大限度地减少了学习体素特征和基于图像的前景掩模的耦合。这与稀疏融合方法相反,稀疏融合方法将输入点云上的语义特征和点特征串联起来,导致多模态特征提取的耦合,因此可能对图像的假阳性和假阴性不具有鲁棒性 。通过一下提出的方法融合体素特征和采样前景点概率:

其中v是融合的特征向量。通过基于前景概率加权体素特征,融合体素特征向量在融合步骤(即vl i, vf l i∈RCl))之前保持在相同的特征空间有效地将几何特征提取从错误的二维语义标签中分离出来。

为了解决图像漏检的问题,添加了一个跳连,以保留相机流检测不到的对象的体素特征。此外,通过保留已占用的背景体素特征,可以聚合上下文信息,这对检测和准确定位前景目标很有帮助。

下图3描述了将DVF应用于4个顺序稀疏卷积块的输出

稀疏卷积块包含一个降采样步骤,该步骤将3D体素网格的分辨率降低了2倍。由于降采样步骤和体素特征的卷积操作,在下一层会有一组新的体素特征。为了实现多模态稠密融合,使用多尺度体素质心对前景蒙版进行采样 。上图3是投影到场景中3个前景物体上的前景体素质心(如图红点所示)。在这里,我们展示了前景质心在l = 1,… 4块的输出上的投影。在多个尺度的体素质心上重复采样前景Mask,会导致体素特征与图像像素之间的对应数量增加,远远超过3D点与图像像素之间的稀疏对应。图1显示了使用所有4个块的体素特征进行采样获得的密集对应。

C. Multi-Modal Training Strategy

训练多模态网络是一项挑战,这主要是因为每个模态的主干过拟合的速率不同。为了克服这一问题,基于图像的二维目标检测器没有与三维检测器联合训练。因此,对于联合训练二维目标检测器时引入的图像误报和误报,DVF具有鲁棒性我们的训练策略包括使用真实的2D包围盒进行训练,同时在整个训练阶段模拟基于图像的假阳性和假阴性 。

我们的关键发现(见表VII),与使用预测的2D包围盒进行训练相比,在模拟2D对象检测失败的情况下,使用无噪声的ground truth前景蒙版训练3D检测器,在单级和两级检测器上表现得更好。

Foreground Heatmap Generation

如图2所示,在训练阶段,使用三维地面真实包围框来构造前景蒙版。利用已知的摄像机标定参数,将每个三维包围盒的角投影到图像平面上。然后,为场景中与前景对象相关的每个角集计算一个对齐的轴2D包围框。由于采用了三维真实包围盒,该融合方法不需要相机标签,也不需要连接二维和三维真实盒。直接使用地真二维包围盒标签进行训练,保证了场景中所有前景物体被图像流准确地召回,为融合模型提供了激光雷达与图像信息一致的对应关系。为了模拟预测的包围盒的类置信度的变化,从均匀分布U[a,b]中提取投影的3D包围盒的类置信度。

每个Bbox的置信度使用其中置信度的最大值。

Simulating False Detections 为了在训练阶段模拟图像假negatives,从训练集中的点云场景中采样的地面真实对象对应的K个样本被附加到输入点云中。与K个ground truth样本相对应的3D包围盒的随机子集没有被投影到前景蒙版上,因此,3D物体检测器被训练来检测被图像流完全错过的前景物体。

DVF在学习的体素特征上增加了跳跃连接,保留了由于图像漏检而被错误标记为背景体素的前景物体的体素特征,从而使地面真值采样得以利用。使用地真采样[33]训练激光雷达探测器加速了收敛,但许多fusion方法由于缺少图像对应而没有使用地真采样,这导致了融合探测器[13]与仅使用激光雷达探测器[13]之间存在较大的差距。我们的多模态训练策略可以利用地面真值采样来加速融合模型的收敛,同时提高对图像漏检的鲁棒性。

最后,在2D对象检测中,包围框包含了整个对象,而不管是否可见。因此,我们隐式地使用严重遮挡的前景对象来模拟图像的假阳性,并训练DVF来区分图像的真阳性和假阳性。

往期回顾

史上最全综述 | 3D目标检测算法汇总!(单目/双目/LiDAR/多模态/时序/半弱自监督)

自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、多传感器融合、SLAM、光流估计、轨迹预测、高精地图、规划控制、AI模型部署落地等方向;

加入我们:自动驾驶之心技术交流群汇总!

自动驾驶之心【知识星球】

想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D目标检测、多传感器融合、目标跟踪、光流估计、轨迹预测)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球(三天内无条件退款),日常分享论文+代码,这里汇聚行业和学术界大佬,前沿技术方向尽在掌握中,期待交流!

13155435301ff0efc5bf364097d7f6a1.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值