目录
一、论文导读
作者提出了一种同时考虑了双向BEV特征构建流程的视觉3D目标检测算法DualBEV,在nuScenes数据集上实现了55.2%的mAP和63.4%的NDS,超过了现有的单向BEV构建算法BEVDepth、BEVFormer以及双向BEV构建算法FB-BEV,DualBEV的核心思路如下
- 论文链接: https://arxiv.org/pdf/2403.05402
- 官方仓库链接:https://github.com/PeidongLi/DualBEV
二、论文研究背景
对于纯视觉的BEV目标检测算法,想要得到精准的目标感知结果非常依赖图像信息到BEV空间特征的转换,而这一转换过程靠视角转换模块来实现。当前的主流方案主要采用2D->3D或者3D->2D的视角转换策略。
一般而言,在2D->3D的视角转换过程当中,算法模型通过预测离散深度概率来提升密集的2D图像特征,但离散深度预测的不确定性会造成感知结果的不准确,这种不确定性对于远距离目标的影响更严重。在3D->2D的视角转换过程中,算法模型借鉴Transformer中的交叉注意力机制利用BEV Query和2D图像信息的交互实现BEV特征的构建,但引入了额外的计算和部署开销。
目前已有了一些工作开始探索同时采用两种BEV特征的构建方案,这类算法通常采取两阶段的构建策略,先是利用2D->3D方案得到初始化的BEV特征,然后再实现进一步的BEV特征构建,但这类构建策略一方面会受到第一阶段得到的BEV特征质量的限制,二是引入了两种BEV构建方式会为部署带来额外的挑战。
在本文中,作者认为不同的视角转换方式只是从不同的角度建立起3D和2D空间特征之间的联系,因此本文创新性的对两种不同类型的BEV构建方式进行了统一,提出了一种结合2D->3D以及3D->2D统一视角变换策略的一阶段双向BEV特征构建算法,称之为DualBEV。不同算法模型的BEV特征构建过程如下表所示,通过表格也可以看出,DualBEV将2D->3D以及3D->2D均用相同的转换公式进行了表示。该网络模型的具体结构以及技术细节在下面进行重点讲解。