【ECCV 2024】智加科技提出统一双向BEV特征构建的视觉SOTA感知算法DualBEV论文解读

一般而言，在2D->3D的视角转换过程当中，算法模型通过预测离散深度概率来提升密集的2D图像特征，但离散深度预测的不确定性会造成感知结果的不准确，这种不确定性对于远距离目标的影响更严重。在3D->2D的视角转换过程中，算法模型借鉴Transformer中的交叉注意力机制利用BEV Query和2D图像信息的交互实现BEV特征的构建，但引入了额外的计算和部署开销。

目前已有了一些工作开始探索同时采用两种BEV特征的构建方案，这类算法通常采取两阶段的构建策略，先是利用2D->3D方案得到初始化的BEV特征，然后再实现进一步的BEV特征构建，但这类构建策略一方面会受到第一阶段得到的BEV特征质量的限制，二是引入了两种BEV构建方式会为部署带来额外的挑战。

在本文中，作者认为不同的视角转换方式只是从不同的角度建立起3D和2D空间特征之间的联系，因此本文创新性的对两种不同类型的BEV构建方式进行了统一，提出了一种结合2D->3D以及3D->2D统一视角变换策略的一阶段双向BEV特征构建算法，称之为DualBEV。不同算法模型的BEV特征构建过程如下表所示，通过表格也可以看出，DualBEV将2D->3D以及3D->2D均用相同的转换公式进行了表示。该网络模型的具体结构以及技术细节在下面进行重点讲解。