论文赏析 ▎BEVFormer,提出了一种采用纯视觉做感知任务的算法模型

最新推荐文章于 2024-07-23 17:36:37 发布

auto-mooc

最新推荐文章于 2024-07-23 17:36:37 发布

阅读量294

点赞数

文章标签：算法计算机视觉人工智能

BEVFormer 是今年中稿 ECCV 2022 的一篇论文。该篇论文提出了一个采用纯视觉（camera）做感知任务的算法模型 BEVFormer。BEVFormer 通过提取环视相机采集到的图像特征，并将提取的环视特征通过模型学习的方式转换到 BEV 空间（模型去学习如何将特征从图像坐标系转换到 BEV 坐标系），从而实现 3D 目标检测和地图分割任务，并取得了 SOTA 的效果。

三维视觉感知任务

包括基于多镜头图像的三维检测和地图分割，对自动驾驶系统至关重要。在这项工作中我们提出了一个新的框架，称为BEVFormer，它通过学习统一的BEV表征与时空变换器，以支持多种自主驾驶感知任务。

驾驶感知任务。简而言之，BEVFormer利用空间和时间信息，通过预定义的BEV查询与空间和时间空间互动。

网格形状的BEV查询。为了聚合空间信息，我们设计了空间交叉注意，每个BEV查询都会从跨相机视图的兴趣区域中提取空间特征。

兴趣区域的空间特征。对于时间信息，我们提出了时间上的自我关注，以反复融合历史上的BEV信息。我们的方法在nuScenes测试集的NDS指标方面达到了最新的56.9%、这比以前的 SOTA 高出9.0个百分点，与基于激光雷达的基准性能相当。基于LiDAR的基线的性能。我们进一步表明BEVFormer显著地提高了在低能见度条件下，BEVFormer明显提高了速度估计的准确性和物体的召回率。

将多机位图像特征转换为鸟瞰图（BEV）特征可以为各种自主驾驶感知任务提供统一的周围环境表示。在这项工作中我们提出了一个新的基于变换器的BEV生成框架，它可以有效地聚合来自多视角相机的时空特征，并通过注意机制来生成BEV特征机制。

一、车自身是不断运动的

上一时刻和当前时刻，由于车自身的不断运动，两个时刻的 BEV 特征在空间上是不对齐的；针对这一问题，为了实现两个时刻特征的空间对齐，需要用到 can_bus 数据中有关车自身旋转角度和偏移的信息，从而对上一时刻的 BEV 特征与当前时刻的 BEV 特征在空间上实现特征对齐；

二、车周围的物体也在一定范围内运动

针对车周围的物体可能在不同时刻也有移动，这部分的特征对齐就是靠网络自身的注意力模块去学习实现修正了。BEVFormer在nuScenes估值集上的可视化结果。我们展示了3D bboxes预测的多机位图像和鸟瞰图。

通过对BEV+Transformer的梳理，我主要有以下两点感受：

第一，为什么BEV+Transformer会成为主流范式，我觉得背后核心还是第一性原理，就是智能驾驶要越来越近“人一样去驾驶”，映射到感知模型本身，BEV是一种更加自然的表达方式，而Transformer实现了CV和NLP的统一。

第二，随着工业和学术界的研究推进，近段时间BEV＋Transformer从普及到走向量产，在当前智能驾驶商业受阻的背景下，或许是一个难得的亮点。但从时间维度上看，BEV＋Transformer已是历史产物，占用网络已经来了，大模型也在路上，或许几个月、最多一两年之后，一个真正的“王炸”会出现，会让之前的积累全部推倒重来，我们要对每一波的迭代怀有敬畏之心，先从技术开始，之后就是商业模式的大变革。

有关算法迭代、大模型、Mapless、GPT等是我们近期持续跟进的重点，有兴趣欢迎随时与我沟通交流。

链接附原英文版阅读链接：
链接：https://pan.baidu.com/s/14uEK8vhjNyOAT9Jf1KUFVg?pwd=mooc
提取码：mooc

直接获取论文代码的也可以私信我

auto-mooc

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
论文赏析 ▎BEVFormer,提出了一种采用纯视觉做感知任务的算法模型

BEVFormer 是今年中稿 ECCV 2022 的一篇论文。该篇论文提出了一个采用纯视觉（camera）做感知任务的算法模型 BEVFormer。BEVFormer 通过提取环视相机采集到的图像特征，并将提取的环视特征通过模型学习的方式转换到 BEV 空间（模型去学习如何将特征从图像坐标系转换到 BEV 坐标系），从而实现 3D 目标检测和地图分割任务，并取得了 SOTA 的效果。
复制链接

扫一扫