真能打！再中TPAMI2024 | FastBEV: 一个快速和强大的BEV基线

自动驾驶之心

于 2024-07-21 00:01:30 发布

阅读量2

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247619014&idx=3&sn=a4f385cbd27bd58cbbd33c84f977f62f&chksm=cf79dfdab3c5693cf5cbb8deb0f5802b2f01526bef6cec66134cb59a788e6d65ce4f50ae2abe&scene=126&sessionid=0

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享FastBEV: 一个快速和强大的BEV基线，再被TPAMI2024收录！如果您有相关工作需要分享，请在文末联系我们！

>>点击进入→自动驾驶之心『BEV感知』技术交流群

编辑 | 自动驾驶之心

前言

车端感知算法，作为自动驾驶技术的核心构成之一，近年来经历了显著的技术飞跃与数次迭代更新。其发展历程可概括为如下几个阶段：

2D感知与属性识别：初期，感知算法主要依赖于2D图像，专注于物体的检测与分类，并试图提取基本属性。
单目3D感知：随着技术进步，逐步发展出基于单目摄像头的3D感知算法，这些算法试图从单一图像中恢复深度信息。
环视3D感知：随后，技术进一步演进至利用多个摄像头实现环视3D感知，通过多视角数据融合提升感知的准确性与鲁棒性。
时序环视3D感知：在环视3D感知的基础上，引入了时间维度的考量，通过连续帧的变化融合，增强了对动态环境的感知能力。
多传感器融合：此阶段结合了雷达、摄像头等多种传感器数据，通过数据融合提升了感知系统的综合性能。
端到端模型：最新的发展趋势在于开发端到端的感知模型，这些模型直接从原始传感器输入预测规划结果，简化了处理流程并提高了运行效率。

车端感知算法的持续进步是自动驾驶技术发展的重要标志，尤其是模型方向的发展。随着模型规模的增大，如何在车端高效部署这些模型已成为一个亟待解决的问题。本文将介绍TPAMI 2024《FastBEV: A Fast and Strong Bird’s-Eye View Perception Baseline》，其主要作者之一现就职于哪吒汽车，负责量产项目的感知模型研发工作。

显式BEV转换的加速需求

针对BEV网络加速的需求，我们首先需要审视当前BEV环视感知的主流技术路径。BEV环视感知技术主要分为两大流派：其一，是以DETR3D和PETR为代表的基于Transformer的稀疏方法，它们通过融合3D位置编码与2D特征，并依托Transformer解码器实现query式的环视感知，而无需显式构建密集的BEV特征；其二，则是以BEVDet和FastBEV等算法为代表的密集方法，它们首先从多相机透视图像中提取2D特征，进而基于投影关系融合成dense的显式BEV特征，这种方案在时序融合、多传感器融合和多任务处理等方面表现出色，因而广泛应用于多种算法中。

然而，随着感知任务要求的不断提高，车端模型的网络结构日益庞大，对BEV感知的范围和分辨率需求亦日益增加。在此背景下，基于稠密BEV特征的方案在算力与感知性能之间往往难以取得平衡，因此，BEV网络的加速显得尤为重要。

FastBEV 如何解决加速问题

FastBEV作为一种前沿的环视感知技术，其在继承m2bev投影方案精髓的基础上，对特征融合效率进行了显著的性能优化。与LSS方法有所区别，FastBEV并不预测2D图像中的深度分布，而是基于一种更为直接的假设：在相机射线方向上，不同深度层次上的像素点特征具有一致性。此假设极大地简化了特征处理流程，有效规避了基于深度分布的特征叉乘操作，进而显著降低了计算复杂性。通过结合静态查找表和多合一的优化策略，FastBEV能够高效地将不同视角下的特征进行整合，从而构建出一个全面且精确的BEV特征表示。该技术不仅在部署速度上达到了极致，同时结合多尺度融合等模型设计和训练trick确保了相当的精度水平。

具体而言，相较于其他view transform方法，如LSS，它们要求为每个相机视角生成多个特征副本，并通过sum pooling进行整合。然而，FastBEV通过深入分析nuscenes数据集中不同相机视角重叠区域的占比情况，揭示了这些重叠区域实际上占比相对较小。进一步地，FastBEV发现每个相机仅在其特定的视野范围内填充有效的特征信息，而其余区域则保持为零值状态。基于这一关键观察，FastBEV提出了一种优化的特征融合策略，即直接将多个特征副本按照内外参数精准地采样并填充到共享的volume特征中。在处理重叠区域时，FastBEV提供了两种选择：保留任意一份特征或进行特征融合。通过实验验证，这种策略在精度上的损失几乎可以忽略不计。

FastBEV在性能优化方面采取了查找表优化技术，该技术通过构建查找表，实现了对目标voxel的2D特征的高效采样。具体而言，该技术仅需根据voxel的索引在查找表中查找对应的2D特征，从而完成一次采样即可实现完整的view transform，此举显著减少了冗余计算和显存的占用。此外，FastBEV还结合了3D neck部分的s2c技巧以及模型量化加速策略，使其在CPU和GPU平台上均能达到实时的感知性能，同时保持了算子的简洁性和跨平台部署的便捷性。

FastBEV基于深度均匀假设，通过改进特征融合策略和查找表优化，结合3D neck优化及模型量化加速等举措，构建了一个高效、实时且易于部署的环视感知系统。该系统专为自动驾驶车辆的环境理解而设计，对自动驾驶技术的持续发展发挥了显著推动作用。

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！重磅，自动驾驶之心科研论文辅导来啦，申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向，欢迎联系我们！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向，目前近60+技术交流群，欢迎加入！扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

④【自动驾驶之心】全平台矩阵

自动驾驶之心

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
真能打！再中TPAMI2024 | FastBEV: 一个快速和强大的BEV基线

点击下方卡片，关注“自动驾驶之心”公众号戳我->领取自动驾驶近15个方向学习路线今天自动驾驶之心为大家分享FastBEV: 一个快速和强大的BEV基线，再被TPAMI2024收录！如果您有相关工作需要分享，请在文末联系我们！>>点击进入→自动驾驶之心『BEV感知』技术交流群编辑 | 自动驾驶之心前言车端感知算法，作为自动驾驶技术的核心构成之一，近年来经历了显著的技术飞跃与数次迭...
复制链接

扫一扫