目录
核心创新点二:Cross-Attention Multi-layer Fusion Module
Multi-modal Feature Alignment with Cross-Attention
一、论文导读
在本文中,作者提出了相机和毫米波雷达多模态融合的3D目标检测算法RCBEVDet,在nuScenes和VoD数据集的3D目标检测任务上实现了SOTA的表现性能,超过了现有的camera-only以及radar-camera的3D目标检测算法,RCBEVDet和其他算法模型的速度和精度对比如下
- 论文链接:https://arxiv.org/pdf/2403.16440
- 官方仓库链接:https://github.com/VDIGPKU/RCBEVDet
二、论文研究背景
在整个自动驾驶系统当中,感知是非常重要的一个组成部分。感知模块通过将单一模态或者多个模态的输入信息进行处理,从而实现对于当前3D环境中动态和静态障碍物的检测。
一般而言,激光雷达传感器可以提供目标丰富的几何结构信息,并且实现更优的感知效果。但是高质量的激光雷达的造价比较高昂。相机传感器和毫米波雷达传感器为智能驾驶方案提供了更经济的选择。与激光雷达传感器相比,相机传感器可以捕捉颜色和纹理等复杂细节,提供丰富的语义信息,同时毫米波雷达传感器可以更好的克服各种天气状况和光照条件的影响,并具有更强的距离和速度的检测能力。
因此,本文的核心思路是设计一种可以结合相机以及毫米波雷达各自传感器信息优势的3D目标检测算法,但目前的这类算法面临着如下相关挑战
-
当前的相机和毫米波雷达融合感知算法大多数遵循BEVFusion算法模型的思路,将多视图图像特征和雷达特征投射到BEV空间,并且主要采用特征拼接、相加求和或者借鉴注意力机制作为多模态特征融合模块。然而,这些融合方法没有考虑到两个模态之间的空间特征不对齐问题
-
当前的相机和毫米波融合算法仍然采用为激光雷达传感器设计的编码器来处理毫米波雷达数据。由于毫米波雷达和激光雷达传感器之间的天然差异,用于毫米波雷达数据的激光雷达编码器不是最优的
综上,在考虑到了相机和毫米波雷达互补的优势以及目前该类算法模型存在的相关问题,本文提出了RCBEVDet。同时大量的实验结果表明,在nuScenes和VoD数据集上相比于camera-only以及radar-camera的3D目标检测算法,RCBEVDet实现了最优的检测效果。该网络模型的具体结构以及技术细节在下面进行重点讲解。
三、网络模型结构&技术细节梳理
下图展示了RCBEVDet算法模型的整体网络结构
通过整体网络框架图可以看到,RCBEVDet将输入的环视图像喂入到图像主干网络提取特征,然后利用View Transformation模块以及图像BEV Encoder模块得到图像BEV特征。同时,对齐的雷达点云通过设计的RadarBEVNet编码得到雷达BEV特征。接着利用设计的Cross-attention Multi-layer Fusion模块实现图像BEV特征和雷达BEV特征的融合,最后接3D检测头输出最终的感知结果。
接下来,我们就详细介绍一下网络框架图当中的RadarBEVNet以及Cross-attention Multi-layer Fusion两个创新点模块
核心创新点一:RadarBEVNet
通过整体的网络结构图可以看出,RadarBEVNet主要由Dual-stream radar backbone、RCS-aware Scattering以及Radar BEV Encoder三部分构成,用于完成毫米波雷达点云的BEV特征构建,从而缓解以往的雷达点云特征都是通过激光雷达点云特征编码器进行提取的弊端。
Dual-stream radar backbone模块
该模块当中包括point-based和transformer-based的主干网络用于实现不同细粒度的特征提取,各自的网络结构如下
其中,point-based的主干网络类似PointNet的网络结构,采用多个块级联的形式,每个块都包括一个MLP层和MaxPool层用于实现局部点云特征的提取过程。transformer-based主干网络采用多个级联的注意力模块来实现全局信息的提取过程,这里作者考虑到由于自动驾驶场景很大,标准的自注意力计算很难进行优化,所以提出了Distance-modulated self-attention mechanism来加速模型的收敛过程。其计算方式如下
其中,代表任意两个点云之间的距离,采用的是高斯计算公式,其中是可以学习的参数。
此外,论文中为了保证Distance-modulated self-attention可以最终退化为原始的自注意力机制,进一步进行了改写,设计了一个可学习参数,改写后的Distance-modulated self-attention如下
此外,为了实现point-based和transformer-based提取特征之间的交互,作者设计了Injection和Extraction模块来实现两类特征之间的交互,简单来说就是采用了交叉注意力机制,并且让两类特征轮流作为query和key、value实现的。
对于Injection模块,point-based的输出特征作为query,transformer-based的输出特征作为key、value执行cross-attention, 是可学习的参数。
对于Extraction模块,point-based的输出特征和transformer-based的输出特征进行互换,计算方式如下
然后重复S次完成Dual-stream radar backbone模块的点云特征提取过程
RCS-aware BEV Encoder
由于雷达点云数据是非常稀疏的,导致将当前的点云投影到BEV空间中绝大多数的特征空间位置都是空白的,弱化了模型的检测性能。对于毫米波雷达而言,雷达截面 (RCS) 可以用来衡量雷达探测到的物体,一般来说,物体越大,雷达波反射越强,因此 RCS 测量值越大。因此,本文中作者利用RCS值来增强目标的信息值,做法示意图如下
具体而言,对于一个雷达点,其RCS值为,在3D空间中的横纵坐标为,映射到BEV空间的横纵坐标为,特征为如果其BEV空间的其他邻域像素在以半径的范围内,都会被赋予特征值,如果某个位置的BEV网格像素被多次赋予点云特征,则进行sum pool操作实现最终雷达BEV特征的构建,记作。
在此基础上,作者还引入了基于高斯的BEV权重如下,其中其他像素的坐标。
然后,作者将高斯BEV权重和特征进行合并,并过一个MLP层进行进一步的特征拟合
Radar BEV Encoder
这部分就是将RCS-aware BEV Encoder模块的输出特征利用类似SECOND的网络实现进一步的特征提取过程
核心创新点二:Cross-Attention Multi-layer Fusion Module
Multi-modal Feature Alignment with Cross-Attention
这里作者不直接采用基于元素相加或者通道合并的方式得到雷达和图像BEV特征是考虑到了雷达点云经常受到方位角误差的影响。因此,雷达传感器可能会获取物体边界之外的雷达点,从而造成图像BEV特征和雷达BEV特征不对齐的问题。这里作者是采用了可变性注意力机制实现两个不同模态的融合过程,融合的可视化过程如下图所示
上图的图例描述的也比较清晰,融合整体思路就是图像BEV特征和雷达BEV特征各自充当query和key、value进行Deformable Cross-Attention的计算得到多模态的融合特征,计算方式建模如下。
Channel and Spatial Fusion
在利用交叉注意力实现图像和雷达模态特征的对齐之后,作者又额外设计了channel and spatial fusion层来进一步聚合多模态融合特征。具体而言,现将对齐后的两类特征进行通道的拼接,然后送入到一个由Conv3x3卷积 + BN层 + ReLU激活函数构成的CBR模块当中实现最终的融合特征构建。
四、实验结果部分
整体实验对比
首先是各类算法模型在nuScenes test数据集上的实验结果对比
然后是在VoD val数据集上的实验结果对比
消融实验对比
首先是各个核心创新点的整体消融对比实验结果,使用RadarBEVNet、CAMF都可以增加模型的NDS和mAP指标。
然后是RadarBEVNet内部各个子模块相应的消融实验,提出的RCS-aware BEV Encoder 和 Injection and Extraction模块可以增加模型的NDS和mAP指标。
以上RCBEVDet论文的解读,希望对大家有所帮助~