【论文解读】BEVFormer: Learning Bird‘s-Eye-View Representation from Multi-Camera Images via Spatiotemporal_bevformer: learning bird鈥檚-eye-view representation-CSDN博客

本文链接：https://blog.csdn.net/lwk___123/article/details/136890464

BEVFormer提出了一种新的框架，通过时空变换器处理多摄像头图像，实现统一的鸟瞰视图表示，提升3D物体检测和地图分割性能。实验结果显示，BEVFormer在nuScenes测试集上达到56.9%的NDS，优于先前技术。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要

3D视觉感知任务，包括基于多摄像头图像的3D检测和地图分割，对自动驾驶系统至关重要。在这项工作中，我们提出了一个称为BEVFormer的新框架，该框架通过时空变换器学习统一的BEV表示，以支持多个自动驾驶感知任务。简而言之，BEVFormer通过预定义的网格状BEV查询与空间和时间空间交互，利用空间和时间信息。为了聚合空间信息，我们设计了空间交叉注意力，即每个BEV查询从相机视图的感兴趣区域提取空间特征。对于时间信息，我们提出了时间自注意来递归地融合历史BEV信息。在nuScenes测试集上，我们的方法在NDS指标方面达到了最先进的56.9%，比以前的最佳技术高出9.0点，与基于激光雷达的基线性能不相上下。我们进一步证明，BEVFormer显著提高了低能见度条件下物体的速度估计和回忆的准确性。代码位于https://github.com/zhiqi-li/BEVFormer

引言

我们提出了一种基于转换器的鸟瞰(BEV)编码器，称为BEVFormer，它可以有效地聚合来自多视图相机的时空特征和历史BEV特征。由BEVFormer生成的BEV特征可以同时支持多种3D感知任务，如3D物体检测和地图分割，这对自动驾驶系统具有重要价值。如图1所示，我们的BEVFormer包含三个关键设计:(1)网格状BEV查询，通过注意机制灵活融合时空特征;(2)空间交叉注意模块，聚合多相机图像的空间特征;(3)时间自注意模块，从历史BEV特征中提取时间信息，有利于运动目标的速度估计和严重遮挡目标的检测。同时带来可忽略不计的计算开销。借助BEVFormer生成的统一特征，该模型可以与不同的任务头(如Deformable DETR[56]和mask decoder[22])协作，进行端到端的3D物体检测和地图分割。

我们提出BEVFormer，一个时空转换编码器，将多摄像机和/或时间戳输入投影到BEV表示。通过统一的BEV特征，我们的模型可以同时支持多个自动驾驶感知任务，包括3D检测和地图分割。
我们设计了可学习的BEV查询以及空间交叉注意层和时间自注意层，分别从交叉摄像机和历史BEV中查找空间特征和时间特征，然后将它们聚合成统一的BEV特征。
我们在多个具有挑战性的基准上评估了拟议的BEVFormer，包括nuScenes[4]和Waymo[40]。与现有技术相比，我们的BEVFormer始终实现更好的性能。例如