主要关注特征融合和特征对齐的方法,对于点云+RGB --> 深度图 + RGB 的共通性,两者的难点和创新点,本质待解决的问题,具体的方法和应用。
标题 Multi-Task Multi-Sensor Fusion for 3D Object Detection
说明
- 会议:CVPR 2019
- 标题:用于 3D 对象检测的多任务多传感器融合
- 代码:无
摘要总结
在本文中,我们建议利用多个相关任务来进行准确的多传感器 3D 对象检测。为实现这一目标,我们提出了一种端到端的可学习架构,该架构可以推理 2D 和 3D 对象检测以及地面估计和深度补全。我们的实验表明,所有这些任务都是互补的,并通过融合不同层次的信息帮助网络学习更好的表征。重要的是,我们的方法在 2D、3D 和鸟瞰图对象检测方面领先于 KITTI 基准,同时是实时的。
背景
- 目的:我们提出利用多个相关任务来实现准确的多传感器 3D 对象检测。
方法
- 总括:为实现这一目标,我们提出了一种端到端的可学习架构,该架构可以推理 2D 和 3D 对象检测以及地面估计和深度补全。
- 具体说明:
- 实验表明,所有这些任务都是互补的,并通过融合不同层次的信息帮助网络学习更好的表征。
结果
- 重要的是,我们的方法在 2D、3D 和鸟瞰图对象检测方面领先于 KITTI 基准,同时是实时的。
框架图
多任务多传感器含义
多任务包含四个任务:
- Mapping(地面估计)
- 3D Detection
- 2D Detection
- Depth Completion (深度补全)
多传感器表示输入数据包含雷达点云图像和RGB图像;
具体方法
我们的方法有以下亮点。 首先,我们设计了一个多传感器架构,结合了点式和 ROI 式特征融合。 其次,我们的集成地面估计模块对道路的几何形状进行推理。 第三,我们利用深度补全任务来学习更好的多传感器特征并实现密集的逐点特征融合。 因此,整个模型可以通过利用多任务损失来端到端地学习。 在下文中,我们首先介绍具有逐点和 ROI 特征融合的多传感器 2D 和 3D 检测器的体系结构。 然后我们展示了我们如何利用其他两个辅助任务来进一步改进 3D 检测。 最后,我们提供了如何端到端地训练我们的模型的详细信息。
具体架构描述:
所提出的用于 2D 和 3D 对象检测的多任务多传感器融合模型的体系结构。 虚线箭头表示投影,而实线箭头表示数据流。 我们的模型是一个简化的两级检测器,具有密集融合的两流多传感器主干网络。 第一阶段是单次检测器,输出少量高质量 3D 检测。 第二阶段应用 ROI 特征融合以进行更精确的 2D 和 3D 框回归。 探索地面估计以在 LiDAR 点云之前合并几何地面。 利用深度补全来学习更好的跨模态特征表示,并通过将预测的密集深度图像转换为密集伪 LiDAR 点来实现密集特征图融合。 整个模型可以端到端地学习。
数据流: 我们的多传感器检测器将 LiDAR 点云和 RGB 图像作为输入。 主干网络采用双流结构,一个流提取图像特征图,另一个提取LiDAR BEV特征图。 逐点特征融合用于将多尺度图像特征融合到 BEV 流中。
网络架构: 骨干网采用双流架构来处理多传感器数据。 具体来说,对于图像流,我们使用预训练的 ResNet-18 直到第四个卷积块。 每个块包含 2 个残差层,特征图的数量从 64 线性增加到 512。 对于 LiDAR 流,我们使用比 ResNet-18 更深更薄的定制残差网络,以在速度和准确性之间取得更好的权衡。 特别地,我们有四个残差块,每个残差块有 2、4、6、6 个残差层,特征图的数量分别为 64、128、192 和 256。我们还删除了第一个残差块之前的最大池化层以保持点云功能中的更多详细信息。 在这两个流中,我们应用具有 1×1 卷积和双线性上采样的特征金字塔网络 (FPN) [14] 来组合多尺度特征。 结果,两个流的最终特征图与输入相比具有 4 的下采样因子。 在最后一个 BEV 特征图之上,我们简单地添加一个 1×1 卷积来执行密集的 3D 对象检测(图中的3D Box estimation)。 在分数阈值化和定向 NMS 之后,少量高质量的 3D 检测被投影到 BEV 空间和 2D 图像空间(虚线表示),并且通过精确的 ROI 特征提取从每个流的最后一个特征图中裁剪出它们的 ROI 特征。 将多传感器 ROI 特征融合在一起并馈送到具有两个 256 维全连接层的细化模块中,以分别预测每个 3D 检测的 2D 和 3D 框细化。
特征融合:
逐点特征融合:我们在 LiDAR 的卷积特征图和图像流之间应用逐点特征融合(如图所示)。 融合是从图像流到 LiDAR 流,以通过图像特征的信息丰富性来增强 BEV 特征。 我们使用特征金字塔网络从图像主干网络中的所有四个块收集多尺度特征。 然后将生成的多尺度图像特征图融合到 LiDAR BEV 骨干网络的每个块中。 为了将图像特征图与 BEV 特征图融合,我们需要找到两个传感器之间的像素对应关系。 受 [13] 的启发,我们使用 LiDAR 点在图像和 BEV 特征图之间建立密集且准确的对应关系。 对于 BEV 特征图中的每个像素,我们找到其最近的 LiDAR 点并将该点投影到图像特征图上以检索相应的图像特征。 我们计算 BEV 像素和 LiDAR 点之间的距离作为几何特征。 检索到的图像特征和 BEV 几何特征都被传递到多层感知器 (MLP),输出通过逐元素相加融合到 BEV 特征图。(请注意,这种逐点特征融合在 LiDAR 观测中是稀疏的。 文章的3.2.2解释如何利用密集深度作为伪 LiDAR 点来为密集点融合提供密集对应。)
[13] Ming Liang, Bin Yang, Shenlong Wang, and Raquel Urtasun. Deep continuous fusion for multi-sensor 3d object detection. In ECCV, 2018.
ROI的特征融合不是关注的重点,此处略过。
探究点
-
KITTI基准
分析:KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。该数据集用于评测立体图像(stereo),光流(optical flow),视觉测距(visual odometry),3D物体检测(object detection)和3D跟踪(tracking)等计算机视觉技术在车载环境下的性能。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中最多达15辆车和30个行人,还有各种程度的遮挡与截断。整个数据集由389对立体图像和光流图,39.2 km视觉测距序列以及超过200k 3D标注物体的图像组成[1] ,以10Hz的频率采样及同步。总体上看,原始数据集被分类为’Road’, ’City’, ’Residential’, ’Campus’ 和 ’Person’。对于3D物体检测,label细分为car, van, truck, pedestrian, pedestrian(sitting), cyclist, tram以及misc组成。 -
论文中提到:“我们提出了一种新的多传感器融合架构,它利用了点式和 ROI 式特征融合的优势,从而产生完全融合的特征表示。”何为点式和 ROI 式特征融合?
分析: 在文章的3.1节有两个小标题Point-wise feature fusion和ROI-wise feature fusion -
“We also exploit the task of depth completion to learn better cross-modality feature representation and more importantly, to achieve dense point-wise feature fusion with pseudo LiDAR points from dense depth.” 深度补全如何学习更好的跨模态特征表示,伪激光雷达点表示什么?
分析: 文章中提到除了几何图估计之外,利用深度补全带来两个好处:它引导网络学习更好的跨模态特征表示,并且它的预测用作图像和 BEV (Bird’s Eye View)特征图之间密集融合的伪 LiDAR 点。