【论文解读】BEVFormer: Learning Bird‘s-Eye-View Representation from Multi-Camera Images via Spatiotemporal

BEVFormer提出了一种新的框架,通过时空变换器处理多摄像头图像,实现统一的鸟瞰视图表示,提升3D物体检测和地图分割性能。实验结果显示,BEVFormer在nuScenes测试集上达到56.9%的NDS,优于先前技术。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要

3D视觉感知任务,包括基于多摄像头图像的3D检测和地图分割,对自动驾驶系统至关重要。在这项工作中,我们提出了一个称为BEVFormer的新框架,该框架通过时空变换器学习统一的BEV表示,以支持多个自动驾驶感知任务。简而言之,BEVFormer通过预定义的网格状BEV查询与空间和时间空间交互,利用空间和时间信息。为了聚合空间信息,我们设计了空间交叉注意力,即每个BEV查询从相机视图的感兴趣区域提取空间特征。对于时间信息,我们提出了时间自注意来递归地融合历史BEV信息。在nuScenes测试集上,我们的方法在NDS指标方面达到了最先进的56.9%,比以前的最佳技术高出9.0点,与基于激光雷达的基线性能不相上下。我们进一步证明,BEVFormer显著提高了低能见度条件下物体的速度估计和回忆的准确性。代码位于https://github.com/zhiqi-li/BEVFormer

引言

我们提出了一种基于转换器的鸟瞰(BEV)编码器,称为BEVFormer,它可以有效地聚合来自多视图相机的时空特征和历史BEV特征。由BEVFormer生成的BEV特征可以同时支持多种3D感知任务,如3D物体检测和地图分割,这对自动驾驶系统具有重要价值。如图1所示,我们的BEVFormer包含三个关键设计:(1)网格状BEV查询,通过注意机制灵活融合时空特征;(2)空间交叉注意模块,聚合多相机图像的空间特征;(3)时间自注意模块,从历史BEV特征中提取时间信息,有利于运动目标的速度估计和严重遮挡目标的检测。同时带来可忽略不计的计算开销。借助BEVFormer生成的统一特征,该模型可以与不同的任务头(如Deformable DETR[56]和mask decoder[22])协作,进行端到端的3D物体检测和地图分割。

  • 我们提出BEVFormer,一个时空转换编码器,将多摄像机和/或时间戳输入投影到BEV表示。通过统一的BEV特征,我们的模型可以同时支持多个自动驾驶感知任务,包括3D检测和地图分割。
  • 我们设计了可学习的BEV查询以及空间交叉注意层和时间自注意层,分别从交叉摄像机和历史BEV中查找空间特征和时间特征,然后将它们聚合成统一的BEV特征。
  • 我们在多个具有挑战性的基准上评估了拟议的BEVFormer,包括nuScenes[4]和Waymo[40]。与现有技术相比,我们的BEVFormer始终实现更好的性能。例如
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值