CVPR 2024 | 北大&电子科大提出RCBEVDet:毫米波雷达-相机多模态的感知架构

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【自动驾驶和3D目标检测】交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

673d360bd6cf5b69bb9406cc367e42c8.jpeg

本文介绍了来自北京大学王选计算机研究所的王勇涛团队与其合作者的最新研究成果RCBEVDet。针对自动驾驶场景,该篇工作提出了一个基于毫米波雷达和环视相机鸟瞰图(BEV)特征融合的3D目标检测模型架构RCBEVDet,在显著提升3D目标检测精度的同时可保持实时的推理速度,且对模态信号丢失、干扰等情况鲁棒,论文已被CVPR 2024录用。

c68014903b12f090248f5e04c12d0df7.png

论文标题:RCBEVDet: Radar-camera Fusion in Bird’s Eye View for 3D Object Detection          
项目主页/论文链接:

https://github.com/VDIGPKU/RCBEVDet

论文概述:

本文提出了一个基于毫米波雷达和环视相机鸟瞰图(BEV)特征融合的3D目标检测模型架构RCBEVDet。该架构针对毫米波雷达的特性设计了一种高效的毫米波雷达主干网络(RadarBEVNet)进行点云鸟瞰图特征提取,提出了一种基于可形变的跨注意力机制进行毫米波雷达特征和环视相机特征融合。该架构对现有主流的环视相机3D检测器具有较强的兼容性,在显著提升3D目标检测精度的同时可保持实时的推理速度,且对模态信号丢失、干扰等情况鲁棒。同时,该架构在自动驾驶感知数据集nuScenes上取得了领先的毫米波雷达-多摄相机3D目标检测精度以及推理速度-精度综合性能。    

研究背景:

近期,研究者们关注于使用经济且高效的多视角相机进行自动驾驶场景的3D目标检测。多视角相机能够捕捉物体的颜色和纹理信息,同时提供高分辨率的语义信息。然而,仅依赖单独的多视角相机难以实现高精度且鲁棒的3D目标检测。例如,多视角相机难以提供准确的深度信息,且图像质量受天气和光照的影响较大。为了提升智能驾驶系统的安全性和鲁棒性,智能驾驶车辆通常采用多种模态的传感器获取场景信息进行感知,如环视相机、激光雷达、毫米波雷达等。毫米波雷达是一种经济实惠的常用传感器,能够提供较为准确的深度信息和速度信息,并且能够在各种天气和光照条件下给出高质量毫米波点云。因此,使用毫米波雷达-环视相机多模态组合感知方案具有优秀的感知能力和较高的性价比,受到了现在很多研究人员和车厂的青睐。但是,由于4D毫米波雷达和环视相机模态间的巨大差异,如何融合这两种模态信息高精度且鲁棒地完成智能驾驶感知任务(如3D目标检测)具有非常大的技术挑战性。

方法部分

作者提出了RCBEVDet,一种基于毫米波雷达和多视角相机鸟瞰图融合的3D感知方法,以实现高精度、高鲁棒性的自动驾驶多模态3D感知。具体架构如下图所示:

6ec24c5cfc06c74d8de953482e673980.png

图1 RCBEVDet架构图

RCBEVDet针对毫米波雷达的特性,设计了一种高效的毫米波雷达主干网络(RadarBEVNet),进行点云鸟瞰图特征提取,RadarBEVNet使用两种特征表征方式对毫米波雷达点云进行特征表示,并使用基于雷达反射截面(RCS)的离散方法得到鸟瞰图特征。此外,该方法还提出了一种基于可形变的跨注意力机制进行毫米波雷达特征和多视角相机鸟瞰图特征进行鲁棒和高效的融合,从而提高自动驾驶的3D感知任务的性能和多模态鲁棒性。

1、RadarBEVNet

给定输入的毫米波雷达点云,RadarBEVNet采用point-based和transformer-based两种表征形式对点云进行特征提取,point-based提取器将针对毫米波雷达点云提取局部点云特征,而transformer-based的模块则针对毫米波雷达点云提取全局点云特征。同时两种特征表示通过injection和extraction模块进行特征关联,将局部特征和全局特征进行交互,得到更加全面的毫米波雷达点云特征。

a、两种特征表征方式    

两种特征表征的提取器如下图所示:

1239b8a3f34b49317f2074c3582f8464.png

图 2 两种特征表征的提取器

point-based表征的架构采用扁平化设计思路,由多层感知机和最大值池化层组成,毫米波点云特征首先被输入到多层感知机进行特征升维,得到高维的点云特征,之后通过最大值池化模块提取全局的点云特征,并将该全局特征与高维点云特征进行通道连接,得到最终的点云特征a9b6846b8017d6740368bbbe8c2a980d.jpeg

Transformer-based表征的架构由三个阶段组成,每个阶段是一个标准的Trasnformer块,由一个注意力机制、一个前向网络和归一化层组成。其中,为了提升模型的收敛性,作者采用了距离调制的注意力机制(Distance-Modulated Self-Attention)。具体而言,给定N个毫米波雷达点云的坐标,首先计算点与点之间的距离矩阵D。之后,根据距离矩阵D生成高斯权重图G,G可以表示为

9d621925aefd7a6dff32c4a611195a54.jpeg

其中851dc88c6c2f810a0cd5b0c5d65ad618.jpeg表示可学习参数,可以用来控制高斯分布的带宽。本质上,高斯权重图G会将更大的权重放置在局部区域,将更小的权重给那些远离当前点云的点。给定高斯权重图之后,采用下述公式对自注意力机制进行调制:   

97eada74672b675a1549f790d95d7e61.jpeg

为了保证在训练过程中,基于距离调制的自注意力机制能够退化回常规的自注意力机制,采用b替代1/3ce96043d40e100864dfcc777d8247c3.jpeg。当b=0时,基于距离调制的自注意力机制退化回常规的自注意力机制。

b、injection和extraction模块

两种特征表示的每个block中,使用injection和extraction模块进行两个特征的融合和交互。具体而言,来自point-based的第i个block的特征为d13415e7b2f0f4cf23e2eb833244b60b.jpeg,来自transformer-based的第i个block的特征为63cd2aa0ad21f859a44438f8d462b552.jpeg。在injection模块中,将94ca274533185e4fee0da380c2654c8f.jpeg设为query,f731ad06cba26ca766f7193ab521e66b.jpeg视为key为value,采用多头跨注意力机制将来transformer-based的特征b73619f8940eee05821980652800765c.jpeg注入到6e0b4c67cf74f329448614596012a0cb.jpeg中。

类似的,extraction模块采用跨注意力机制将point-based特征98c846c698c1578c93fadfe5b43e338d.jpeg抽取出来,并传入transformer-based的block中。两者的架构具体如下所示:

ae4befdb6ba297635f61e4bd8a367121.png

图3 injection和extraction模块架构图

2、基于雷达反射截面(RCS)的离散方法

RCS是毫米波雷达特有的特征,它是用来反映一个物体可检测性的指标。相同条件下(材料、形状),较大的物体会产生较强的毫米波雷达反射响度,从而使毫米波雷达传感器获得较强的雷达反射截面。因此,雷达反射截面能够在一定程度上反映出物体的大小。基于RCS引导的体素离散化操作将雷达反射截面作为物体大小的先验知识,从而能够使得一个毫米波雷达点云被离散化到多个体素栅格上,提高毫米波雷达特征的稠密程度,使后续的特征聚集变得更加简单。如下图所示:   

98d39e672d8353c6f2a1c90e8631b027.png

图4 基于RCS的离散方式示意图

3、可形变的跨注意力机制融合模块

毫米波雷达点云会偏离其真实位置,因此作者采用可形变跨注意力机制来动态学习这种位置偏置,提高融合的鲁棒性,如下图所示。同时,采用可形变跨注意力机制能够将普通的跨注意力机制的计算复杂度从3df2ef22a993173dc049102c059e3c7c.jpeg降低到cf01f29331d04edfcdd53ae404169e1d.jpeg,提高融合的效率。其中H和W分别表示体素的长和宽,C表示特征体素的通道数,K表示可形变跨注意力机制中的参考点数量。   

a998316380c3d4b8f04dd1a242357086.png

图5 可形变的跨注意力机制融合模块架构图

实验部分:

RCBEVDet主要在多模态自动驾驶数据集nuScenes上进行实验。以BEVDepth为基础模型,RCBEVDet在增加少量推理时延的情况下(仍保证实时推理速度),能够大幅度稳定提升3D检测的性能,同时实现最优的速度-精度权衡,如下所示:

e41382da421f1c9af063e0e0ebf7aca4.png

图6 速度-精度权衡图

在nuScenes验证集上,作者验证了RCBEVDet在不同backbone和image size的性能,如下表所示,RCBEVDet在各个设置下相比于之前的方法都有明显提升。   

b66e59ef3b891e7650cb5c39d7040260.png

图7 nuScenes验证集结果

在nuScenes测试集上,增加Radar输入后,相比于相机基准模型BEVDepth,RCBEVDet提升了3.4 NDS,实现了63.9 NDS的性能。值得注意的是,RCBEVDet能够非常方便地与现有的其他高精度多视角相机检测器(例如streamPETR)相结合,实现更高精度的3D检测结果。

d112f74854fb86b06341b96ce89c94ea.png

图8 nuScenes测试集结果

此外,作者模拟随机丢失传感器的情况,将部分传感器(相机或者毫米波雷达)的输入设为空,来验证RCBEVDet的鲁棒性,具体结果如下所示    

3f6853a16ee44cd157afccae51b917be.png

图9 鲁棒性验证

RCBEVDet对相机和毫米波雷达的缺失均表现出较强的鲁棒性。

结论:

本文提出了RCBEVDet,一个基于毫米波雷达和环视相机鸟瞰图(BEV)特征融合的3D目标检测模型架构,在显著提升3D目标检测精度的同时可保持实时的推理速度,且具有较强鲁棒性。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

自动驾驶和3D目标检测交流群成立

 
 
扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-自动驾驶和3D目标检测微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如自动驾驶或者3D目标检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer5555,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
CVPR 2022是计算机视觉和模式识别领域的顶级会议,而多模态研究是其重要的研究方向之一。多模态处理涉及处理和融合来自不同感知模态(例如图像、语音、文本等)的信息,以提高对现实场景的理解能力。 在CVPR 2022多模态方向的研究中,一些关键的趋势和话题将得到关注。首先,基于深度学习的多模态方法将继续发展,因为其在处理多模态数据中的高级特征表示方面取得了显著成果。这些方法使用强大的神经网络架构,能够跨不同感知模态获取数据并实现融合。此外,对于多模态研究的探索还将进一步推动更加复杂和深层次的网络设计,以实现更好的融合效果。 其次,跨模态学习也是CVPR 2022多模态研究的重要方向之一。这项研究旨在利用不同模态之间的共享知识,通过迁移学习和领域自适应等技术,从一个模态中的标记数据中学习到其他未标记模态的有效表达。这对于那些有限标记数据的模态研究任务非常有价值。 最后,CVPR 2022多模态方向还将关注各种真实应用场景中的挑战和问题。例如,多模态医学图像处理和分析领域的研究,可以辅助医生进行更准确的诊断和疾病检测。另外,多模态文本和图像生成方面的研究,也能够推动现实世界中的创造性设计和内容生成。 总之,CVPR 2022多模态方向的研究将继续推动计算机视觉和模式识别领域的发展。通过深度学习、跨模态学习以及应用于不同领域的研究,我们可以期待在多模态数据处理和融合方面取得更多突破和创新。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值