论文赏析 ▎BEVFormer,提出了一种采用纯视觉做感知任务的算法模型

BEVFormer 是今年中稿 ECCV 2022 的一篇论文。该篇论文提出了一个采用纯视觉(camera)做感知任务的算法模型 BEVFormer。BEVFormer 通过提取环视相机采集到的图像特征,并将提取的环视特征通过模型学习的方式转换到 BEV 空间(模型去学习如何将特征从 图像坐标系转换到 BEV 坐标系),从而实现 3D 目标检测和地图分割任务,并取得了 SOTA 的效果。

三维视觉感知任务

包括基于多镜头图像的三维检测和地图分割,对自动驾驶系统至关重要。在这项工作中我们提出了一个新的框架,称为BEVFormer,它通过学习统一的BEV表征与时空变换器,以支持多种自主驾驶感知任务。

驾驶感知任务。简而言之,BEVFormer利用空间和时间信息,通过预定义的BEV查询与空间和时间空间互动。

网格形状的BEV查询。为了聚合空间信息,我们设计了空间交叉注意,每个BEV查询都会从跨相机视图的兴趣区域中提取空间特征。

兴趣区域的空间特征。对于时间信息,我们提出了时间上的自我关注,以反复融合历史上的BEV信息。我们的方法在nuScenes测试集的NDS指标方面达到了最新的56.9%、这比以前的 SOTA 高出9.0个百分点,与基于激光雷达的基准性能相当。基于LiDAR的基线的性能。我们进一步表明BEVFormer显著地提高了在低能见度条件下,BEVFormer明显提高了速度估计的准确性和物体的召回率。

将多机位图像特征转换为鸟瞰图(BEV)特征可以为各种自主驾驶感知任务提供统一的周围环境表示。在这项工作中我们提出了一个新的基于变换器的BEV生成框架,它可以有效地聚合来自多视角相机的时空特征,并通过注意机制来生成BEV特征机制。

一、车自身是不断运动的

上一时刻和当前时刻,由于车自身的不断运动,两个时刻的 BEV 特征在空间上是不对齐的;针对这一问题,为了实现两个时刻特征的空间对齐,需要用到 can_bus 数据中有关车自身旋转角度和偏移的信息,从而对上一时刻的 BEV 特征与当前时刻的 BEV 特征在空间上实现特征对齐;

二、车周围的物体也在一定范围内运动

针对车周围的物体可能在不同时刻也有移动,这部分的特征对齐就是靠网络自身的注意力模块去学习实现修正了。BEVFormer在nuScenes估值集上的可视化结果。我们展示了3D bboxes预测的多机位图像和鸟瞰图。

通过对BEV+Transformer的梳理,我主要有以下两点感受:

第一, 为什么BEV+Transformer会成为主流范式,我觉得背后核心还是第一性原理,就是智能驾驶要越来越近“人一样去驾驶”,映射到感知模型本身,BEV是一种更加自然的表达方式,而Transformer实现了CV和NLP的统一。

第二, 随着工业和学术界的研究推进,近段时间BEV+Transformer从普及到走向量产,在当前智能驾驶商业受阻的背景下,或许是一个难得的亮点。但从时间维度上看,BEV+Transformer已是历史产物,占用网络已经来了,大模型也在路上,或许几个月、最多一两年之后,一个真正的“王炸”会出现,会让之前的积累全部推倒重来,我们要对每一波的迭代怀有敬畏之心,先从技术开始,之后就是商业模式的大变革。

有关算法迭代、大模型、Mapless、GPT等是我们近期持续跟进的重点,有兴趣欢迎随时与我沟通交流。

链接附原英文版阅读链接:
链接:https://pan.baidu.com/s/14uEK8vhjNyOAT9Jf1KUFVg?pwd=mooc
提取码:mooc

直接获取论文代码的也可以私信我

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值