使用Transformer融合时空信息的自动驾驶感知框架

BEVFormer是一种基于Transformer的自动驾驶感知框架,通过时空信息融合优化鸟瞰图视角下的物体检测。在nuScenes数据集上表现出色,BEV特征支持多种感知任务,包括3D目标检测和地图语义分割。BEVQueries通过Spatial Cross-Attention和Temporal Self-Attention融合多视角信息,提高了检测性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述

BEVFormer很荣幸参与到最近这波BEV感知的研究浪潮中,我们从开源社区中受益良多,也希望尽我们所能为社区做出我们自己的贡献,希望未来与社区一道共同构建更加安全可靠的自动驾驶感知系统。

引言

TL; DR: 本文提出了一套基于Transformer和时序模型在鸟瞰图视角下优化特征的环视物体检测方案,即BEVFormer。nuScenes数据集上以NDS指标(类似mAP),在camera only赛道中大幅领先之前方法。本文旨在介绍我们在设计BEVFormer过程中考虑的思路、比较的多种方法、以及下一步可能的研究方向。

PS:未经授权,禁止转载

介绍

最近,基于多视角摄像头的3D目标检测在鸟瞰图下的感知(Bird’s-eye-view Perception, BEV Perception) 吸引了越来越多的注意力。一方面,将不同视角在BEV下统一与表征是很自然的描述,方便后续规划控制模块任务;另一方面,BEV下的物体没有图像视角下的尺度(scale)和遮挡(occlusion)问题。如何优雅的得到一组BEV下的特征描述,是提高检测性能的关键。

nuScenes自动驾驶数据集因其数据的质量、规模与难度都比之前数据集有大幅提升,而获得了很多研究者的关注。在nuScenes 3D object detection task上,目前前6名方案都是2022年3月进行的提交。我们提出的BEVFormer取得了48.1 mAP和56.9 NDS,两个指标均超越现有方法3个点以上,暂列第一。“低碳版”BEVFormer-pure仅使用ResNet-101与单尺度测试,取得了优于第二名(Swin-B、test-time aug)的mAP以及相同的NDS。具体榜单如下。
在这里插入图片描述
注:Table:BEVFormer 在nuScence榜单上的排名(截至2022.3.31)

本项目最早启发于2021年7月特斯拉的技术分享会,为此我们还做了几期细致的分享(链接TODO)。特斯拉展示了基于Transformer使用纯视觉输入进行自动驾驶感知任务的惊艳效果,但是它并没有展示其方法的具体实现和量化指标。与此同时,学术界也有许多相关工作旨在利用纯视觉输入来完成自动驾驶感知任务,例如3D目标检测或者构建语义地图。我们提出的BEVFormer的主要贡献在于使用Transformer在BEV空间下进行时空信息融合

BEVFormer方案

在这里插入图片描述
注:BEVFormer动机:使用可学习的BEV query通过attention与spatial space 和temporal space交互

动机

在介绍BEVFormer的具体方案之前,先要回答两个问题。

1: 为什么要用BEV?

事实上对于基于纯视觉的3D检测方法,基于BEV去做检测并不是主流做法。在nuScenes 榜单上很多效果很好的方法&#x

### BEV感知自动驾驶中的应用 #### 技术原理 BEV(鸟瞰图视角)感知算法通过将不同传感器获取的数据转换到统一的鸟瞰视图坐标系下,从而实现多源数据的有效融合[^1]。这种变换不仅限于摄像头图像,还包括激光雷达点云和其他类型的传感输入。通过对这些异构数据进行空间上的对齐和语义级别的聚合,可以构建出更加全面且精确的道路环境表示。 对于基于视觉的方法而言,通常会采用逆透视投影(Inverse Perspective Mapping, IPM)[^3]来完成二维图像向三维世界的映射;而对于LiDAR等主动式探测设备,则可以直接利用其自带的空间位置信息来进行处理。值得注意的是,虽然IPM技术已经相对成熟并被广泛应用,但它存在一些固有的缺陷——例如对外部参数敏感以及无法很好地处理非水平面物体等问题。因此,在实际部署过程中往往还需要结合其他手段加以补充和完善。 #### 实现方法 为了克服传统单目或双目相机方案中存在的诸多挑战,现代BEV感知框架倾向于集成多种不同类型的感受器,并借助深度学习模型挖掘其中蕴含的价值。具体来说: - **多模态特征提取**:针对每种特定类型的输入信号设计专门的编码网络结构,如ResNet用于RGB影像分析、PointNet负责点云分类任务等等; - **跨域一致性约束**:引入额外损失项鼓励来自不同渠道却指向同一物理实体的信息之间保持一致关系,进而增强系统的鲁棒性和泛化能力; - **时空联合建模**:考虑到交通场景具有很强的时间连续特性,故而有必要考虑如何有效地捕捉动态变化趋势。此时可选用循环神经元(RNNs),卷积长短记忆单元(C-LSTM)或者Transformer架构作为核心组件之一。 ```python import torch.nn as nn class MultiSensorFusion(nn.Module): def __init__(self): super(MultiSensorFusion, self).__init__() # Define feature extraction networks for different sensor types here def forward(self, inputs): fused_features = None # Implement fusion logic based on the extracted features from various sensors return fused_features ``` 上述代码片段展示了一个简单的多传感器融合模块定义方式,可以根据实际情况调整内部的具体组成部件及其连接模式以适应不同的应用场景需求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值