【论文概述】MMF (2019)

本文介绍一种多传感器融合框架,用于解决2D/3D目标检测、路面估计及深度补全等任务,通过RGB-D与点云的深度结合,有效提升了自动驾驶场景下3D感知的准确性和实时性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文信息

题目:Multi-Task Multi-Sensor Fusion for 3D Object Detection

论文链接

野代码链接

问题导入

3D 感知对于自动驾驶落地至关重要,每个传感器都有相应的缺点,转而采用 RGB + Point Cloud。此前的方案如 F-PointNet 采用级联方式会放大每个传感器的缺点;单阶段检测器如 ContFuse 在每个点上生成特征图,这受限于稀疏点云;两阶段检测器如 AVOD 在 ROI 上融合特征,这种方案帧率有点低。本文开发了一种多传感器融合的且能解决 2D/3D 目标检测,路面估计以及深度补全多任务的框架。

总体思路

在这里插入图片描述
如上图所示,首先,点云投影成稀疏深度图与 RGB 连接成 RGB-D 送入 CNN,产生浓密深度信息补全 Pseudo LiDAR 伪点云;其次,原始点云采用在线映射得到路面估计得到点云的 BEV 表示,送入 CNN;再次,将原始点云与深度补全的伪点云深度融合(这里是类似于ContFuse 的 point-wise 融合)送入 CNN,再进行类似于 AVOD 的 ROI-wise 融合,初步估计 3D 框,同时投影到 RGB-D 网络中,两种特征图裁剪后拼接;最后经过FC与NMS产生 2D 和 3D 框回归以及类别预测。

论文效果

在这里插入图片描述
如上图所示,这是定量分析,在 KITTI 的 2D,3D,BEV benchmark (car) 都做了测试,与 RGB-based,LIDAR-based 以及 RGB+LIDAR 的方案从 AP 和 Time 两方面做了对比,IOU 取 0.7。AP 为 76.75。
在这里插入图片描述
如上图所示,这是定性分析,红框是预测框,绿框是 GT。
在这里插入图片描述
如上图所示,这只是对比实验,分别研究各模块对 AP 的影响。这表明多传感器融合,深度补全,路面估计工作对 3D 检测工作 AP 的提升有贡献。

总结

这项工作的 Motivations 是将多尺度图像特征融合到了 BEV 中,联合了多种 tricks 来改进 3D 检测的 AP;但个人觉得框架有点复杂,不是一个端到端通用框架。

几篇CVPR关于multi-task论文笔记整理,包括 一、 多任务课程学习Curriculum Learning of Multiple Tasks 1 --------------^CVPR2015/CVPR2016v--------------- 5 二、 词典对分类器驱动卷积神经网络进行对象检测Dictionary Pair Classifier Driven Convolutional Neural Networks for Object Detection 5 三、 用于同时检测和分割的多尺度贴片聚合(MPA)* Multi-scale Patch Aggregation (MPA) for Simultaneous Detection and Segmentation ∗ 7 四、 通过多任务网络级联实现感知语义分割Instance-aware Semantic Segmentation via Multi-task Network Cascades 10 五、 十字绣网络多任务学习Cross-stitch Networks for Multi-task Learning 15 --------------^CVPR2016/CVPR2017v--------------- 23 六、 多任务相关粒子滤波器用于鲁棒物体跟踪Multi-Task Correlation Particle Filter for Robust Object Tracking 23 七、 多任务网络中的全自适应特征共享与人物属性分类中的应用Fully-Adaptive Feature Sharing in Multi-Task Networks With Applications in Person Attribute Classification 28 八、 超越triplet loss:一个深层次的四重网络,用于人员重新识别Beyond triplet loss: a deep quadruplet network for person re-identification 33 九、 弱监督级联卷积网络Weakly Supervised Cascaded Convolutional Networks 38 十、 从单一图像深度联合雨水检测和去除Deep Joint Rain Detection and Removal from a Single Image 43 十一、 什么可以帮助行人检测?What Can Help Pedestrian Detection? (将额外的特征聚合到基于CNN的行人检测框架) 46 十二、 人员搜索的联合检测和识别特征学习Joint Detection and Identification Feature Learning for Person Search 50 十三、 UberNet:使用多种数据集和有限内存训练用于低,中,高级视觉的通用卷积神经网络UberNet: Training a Universal Convolutional Neural Network for Low-, Mid-, and High-Level Vision using Diverse Datasets and Limited Memory 62 一共13篇,希望能够帮助到大家
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值