目录
一、论文导读
作者提出了一种同时考虑了双向BEV特征构建流程的视觉3D目标检测算法DualBEV,在nuScenes数据集上实现了55.2%的mAP和63.4%的NDS,超过了现有的单向BEV构建算法BEVDepth、BEVFormer以及双向BEV构建算法FB-BEV,DualBEV的核心思路如下
- 论文链接: https://arxiv.org/pdf/2403.05402
- 官方仓库链接:https://github.com/PeidongLi/DualBEV
二、论文研究背景
对于纯视觉的BEV目标检测算法,想要得到精准的目标感知结果非常依赖图像信息到BEV空间特征的转换,而这一转换过程靠视角转换模块来实现。当前的主流方案主要采用2D->3D或者3D->2D的视角转换策略。
一般而言,在2D->3D的视角转换过程当中,算法模型通过预测离散深度概率来提升密集的2D图像特征,但离散深度预测的不确定性会造成感知结果的不准确,这种不确定性对于远距离目标的影响更严重。在3D->2D的视角转换过程中,算法模型借鉴Transformer中的交叉注意力机制利用BEV Query和2D图像信息的交互实现BEV特征的构建,但引入了额外的计算和部署开销。
目前已有了一些工作开始探索同时采用两种BEV特征的构建方案,这类算法通常采取两阶段的构建策略,先是利用2D->3D方案得到初始化的BEV特征,然后再实现进一步的BEV特征构建,但这类构建策略一方面会受到第一阶段得到的BEV特征质量的限制,二是引入了两种BEV构建方式会为部署带来额外的挑战。
在本文中,作者认为不同的视角转换方式只是从不同的角度建立起3D和2D空间特征之间的联系,因此本文创新性的对两种不同类型的BEV构建方式进行了统一,提出了一种结合2D->3D以及3D->2D统一视角变换策略的一阶段双向BEV特征构建算法,称之为DualBEV。不同算法模型的BEV特征构建过程如下表所示,通过表格也可以看出,DualBEV将2D->3D以及3D->2D均用相同的转换公式进行了表示。该网络模型的具体结构以及技术细节在下面进行重点讲解。
三、网络模型结构&技术细节梳理
下图展示了DualBEV算法模型的整体网络结构
通过整体网络框架图可以看到,DualBEV首先利用图像主干网络提取环视图像的特征,然后利用SceneNet网络预测像素的深度概率以及实例掩码区域,将二者喂入到Prob-LSS分支和HeightTrans分支得到LSS特征和HT特征。然后利用提出的Dual Feature Fusion模块得到融合后的特征,进而计算BEV概率分布得到最终的BEV空间特征,再利用3D检测头输出最终的感知结果。
接下来,我们就详细介绍一下DualBEV当中包含的Prob-LSS分支、HeightTrans分支以及Dual Feature Fusion模块的技术实现细节。
核心创新点一:HeightTrans分支
HeightTrans分支与以往采用3D->2D采样构建BEV特征的思路类似,都是先在BEV空间中显示的生成3D网格点,然后根据坐标投影关系汇聚2D图像特征信息构建最终的BEV特征。但是与通常采用Transformer的方式来构建BEV特征存在一些不同
-
对BEV的高度方向进行优化:取消Deformable Attention的偏移点采样+高度方向上的均匀3D点设置,改为多分辨率的采样策略;在[-2, 2m]范围内分辨率为0.5m,防止遗漏小尺度的目标特征,其他范围内的分辨率是1m;
-
对图像特征的采样进行优化:论文作者考虑到3D映射到2D图像上的点有可能会落在背景区域,所采样的特征会干扰模型的检测过程。将前文提到的SceneNet预测的实例Mask作用于特征提取的过程中,用于缓解这类问题;其中代表的是Grid Sample函数,代表的是2D图像特征。
-
对3D点的投影过程进行优化:论文作者为了区分多个BEV网格点会对应同一个2D图像位置的情况,将前文提到的SceneNet预测的深度概率用于评估这些映射对应情况。其中表根据预测的离散深度概率和投影的2D图像位置采用三线性差值得到的深度概率。
-
对BEV特征的生成进行优化:
-
首先,作者为了解决空白 BEV 网格无法提供任何有用检测信息的问题,在生成BEV特征的过程中引入了BEV概率
-
此外,作者还引入了BEVPoolv2和查找表来加速BEV特征的构建过程
-
核心创新点二: Prob-LSS分支
作者认为深度估计网络对于离散深度预测的固有不确定性会导致BEV空间中存在无关的特征信息,为了解决这一问题,作者在2D->3D的特征构建过程中同样引入了BEV概率,公式中其他参数的含义与上文是相同的
核心创新点三:Dual Feature Fusion
在通过HeightTrans分支和Prob-LSS分支得到两种不同方式构建的BEV特征之后,作者引入了包含通道注意力和空间注意力的Dual Feature Fusion模块来集成这两种特征,其中通道注意力用于预测两类特征的通道权重,空间注意力用于预测BEV空间概率,Dual Feature Fusion模块的具体网络结构如下。
-
通道注意力:作者利用Dual Feature Fusion中的CAF模块来获取通道方向上的权重。该融合阶段旨在利用学习通道级的权重从两个特征中实现更好的特征融合。
-
空间注意力:作者利用Dual Feature Fusion中的SAE-ProbNet模块来得到BEV空间概率,用于缓解空白BEV网格对于模型性能的影响。
实验结果部分
整体实验对比
首先是各类算法模型在nuScenes val数据集上的实验结果对比
为了直观的展示DualBEV算法模型的性能,对相关的感知结果进行了可视化对比
消融实验对比
首先是各个核心创新点的整体消融对比实验结果
然后分别是各类创新点单独的消融对比实验
以上ECCV2024 DualBEV论文的解读,希望对大家有所帮助~