BEVFormer 是今年中稿 ECCV 2022 的一篇论文。该篇论文提出了一个采用纯视觉(camera)做感知任务的算法模型 BEVFormer。BEVFormer 通过提取环视相机采集到的图像特征,并将提取的环视特征通过模型学习的方式转换到 BEV 空间(模型去学习如何将特征从 图像坐标系转换到 BEV 坐标系),从而实现 3D 目标检测和地图分割任务,并取得了 SOTA 的效果。
三维视觉感知任务
包括基于多镜头图像的三维检测和地图分割,对自动驾驶系统至关重要。在这项工作中我们提出了一个新的框架,称为BEVFormer,它通过学习统一的BEV表征与时空变换器,以支持多种自主驾驶感知任务。
驾驶感知任务。简而言之,BEVFormer利用空间和时间信息,通过预定义的BEV查询与空间和时间空间互动。
网格形状的BEV查询。为了聚合空间信息,我们设计了空间交叉注意,每个BEV查询都会从跨相机视图的兴趣区域中提取空间特征。
兴趣区域的空间特征。对于时间信息,我们提出了时间上的自我关注,以反复融合历史上的BEV信息。我们的方法在nuScenes测试集的NDS指标方面达到了最新的56.9%、这比以前的 SOTA 高出9.0个百分点,与基于激光雷达的基准性能相当。基于LiDAR的基线的性能。我们进一步表明BEVFormer显著地提高了在低能见度条件下,BEVFormer明显提高了速度估计的准确性和物体的召回率。
将多机位图像特征转换为鸟瞰图(BEV)特征可以为各种自主驾驶感知任务提供统一的周围环境表示。在这项工作中我们提出了一个新的基于变换器的BEV生成框架,它可以有效地聚合来自多视角相机的时空特征,并通过注意机制来生成BEV特征机制。
一、车自身是不断运动的
上一时刻和当前时刻,由于车自身的不断运动,两个时刻的 BEV 特征在空间上是不对齐的;针对这一问题,为了实现两个时刻特征的空间对齐,需要用到 can_bus 数据中有关车自身旋转角度和偏移的信息,从而对上一时刻的 BEV 特征与当前时刻的 BEV 特征在空间上实现特征对齐;
二、车周围的物体也在一定范围内运动
针对车周围的物体可能在不同时刻也有移动,这部分的特征对齐就是靠网络自身的注意力模块去学习实现修正了。BEVFormer在nuScenes估值集上的可视化结果。我们展示了3D bboxes预测的多机位图像和鸟瞰图。
通过对BEV+Transformer的梳理,我主要有以下两点感受:
第一, 为什么BEV+Transformer会成为主流范式,我觉得背后核心还是第一性原理,就是智能驾驶要越来越近“人一样去驾驶”,映射到感知模型本身,BEV是一种更加自然的表达方式,而Transformer实现了CV和NLP的统一。
第二, 随着工业和学术界的研究推进,近段时间BEV+Transformer从普及到走向量产,在当前智能驾驶商业受阻的背景下,或许是一个难得的亮点。但从时间维度上看,BEV+Transformer已是历史产物,占用网络已经来了,大模型也在路上,或许几个月、最多一两年之后,一个真正的“王炸”会出现,会让之前的积累全部推倒重来,我们要对每一波的迭代怀有敬畏之心,先从技术开始,之后就是商业模式的大变革。
有关算法迭代、大模型、Mapless、GPT等是我们近期持续跟进的重点,有兴趣欢迎随时与我沟通交流。
链接附原英文版阅读链接:
链接:https://pan.baidu.com/s/14uEK8vhjNyOAT9Jf1KUFVg?pwd=mooc
提取码:mooc
直接获取论文代码的也可以私信我