BEVFormer
摘要
3D视觉感知任务,包括基于多摄像头图像的3D检测和地图分割,对自动驾驶系统至关重要。在这项工作中,我们提出了一个称为BEVFormer的新框架,该框架通过时空变换器学习统一的BEV表示,以支持多个自动驾驶感知任务。简而言之,BEVFormer通过预定义的网格状BEV查询与空间和时间空间交互,利用空间和时间信息。为了聚合空间信息,我们设计了空间交叉注意力,即每个BEV查询从相机视图的感兴趣区域提取空间特征。对于时间信息,我们提出了时间自注意来递归地融合历史BEV信息。在nuScenes测试集上,我们的方法在NDS指标方面达到了最先进的56.9%,比以前的最佳技术高出9.0点,与基于激光雷达的基线性能不相上下。我们进一步证明,BEVFormer显著提高了低能见度条件下物体的速度估计和回忆的准确性。代码位于https://github.com/zhiqi-li/BEVFormer
引言
我们提出了一种基于转换器的鸟瞰(BEV)编码器,称为BEVFormer,它可以有效地聚合来自多视图相机的时空特征和历史BEV特征。由BEVFormer生成的BEV特征可以同时支持多种3D感知任务,如3D物体检测和地图分割,这对自动驾驶系统具有重要价值。如图1所示,我们的BEVFormer包含三个关键设计:(1)网格状BEV查询,通过注意机制灵活融合时空特征;(2)空间交叉注意模块,聚合多相机图像的空间特征;(3)时间自注意模块,从历史BEV特征中提取时间信息,有利于运动目标的速度估计和严重遮挡目标的检测。同时带来可忽略不计的计算开销。借助BEVFormer生成的统一特征,该模型可以与不同的任务头(如Deformable DETR[56]和mask decoder[22])协作,进行端到端的3D物体检测和地图分割。
- 我们提出BEVFormer,一个时空转换编码器,将多摄像机和/或时间戳输入投影到BEV表示。通过统一的BEV特征,我们的模型可以同时支持多个自动驾驶感知任务,包括3D检测和地图分割。
- 我们设计了可学习的BEV查询以及空间交叉注意层和时间自注意层,分别从交叉摄像机和历史BEV中查找空间特征和时间特征,然后将它们聚合成统一的BEV特征。
- 我们在多个具有挑战性的基准上评估了拟议的BEVFormer,包括nuScenes[4]和Waymo[40]。与现有技术相比,我们的BEVFormer始终实现更好的性能。例如