DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection总结

DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection

说明

  • 会议:CVPR2022
  • 标题:DeepFusion:用于多模式 3D 对象检测的激光雷达相机深度融合
  • 代码:https://github.com/tensorflow/lingvo

摘要总结

背景

  • 现状:激光雷达和摄像头是关键传感器,可为自动驾驶中的 3D 检测提供补充信息。
  • 问题:流行的多模式方法是简单的利用相机特征对原始激光雷达点云做decorate,但我们的研究表明,比起原始的数据,直接将相机的特征和深度雷达特征做融合可以达到更好的效果;然而由于这些特征经常被增强和聚合,融合的一个关键挑战是如何有效对齐两者模态转换后的特征

方法

  • 总括:在本文中,我们提出了两种新技术:InverseAug 和 LearnableAlign

  • 具体说明:

    • InverseAug 反转几何相关的增强,例如旋转,以实现激光雷达点和图像像素之间的精确几何对齐;
    • LearnableAlign 利用交叉注意力动态捕获图像之间的相关性融合过程中的激光雷达特征。

结果

基于 InverseAug 和 LearnableAlign,我们开发了一系列名为 DeepFusion 的通用多模式 3D 检测模型。

  • 它比以前的方法更准确。例如,DeepFusion 分别针对 6.7、8.9 和 6.2 LEVEL 2 APH 改进了 Point-Pillars、CenterPoint 和 3D-MAN 行人检测基线。
  • 我们的模型在 Waymo 开放数据集上实现了最先进的性能,并显示出强大的模型鲁棒性,可以防止输入损坏和分布外的数据。

具体方法

具体架构描述

框架图片
我们的方法在深度特征层面上融合了两种模式,而之前最先进的方法(以 PointPainting [34] 和 PointAugmenting [36] 为例)在输入层面上用相机特征装饰激光雷达点。为了解决深度特征融合的模态对齐问题(参见第 1 节),我们提出了两种技术 InverseAug(参见图 2 和 3)和 LearnableAlign,这是一种基于交叉注意力的特征级对齐技术。

如图1(a)所示,以前的方法,如PointPainting[34]和PointAugmenting[36],通常使用一个额外训练有素的检测或分割模型作为相机特征提取器。例如,PointP

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>