摘要
现有大多数的BEV解决方案要么需要大量资源来执行车载推理,要么性能不佳
Fast BEV是一种简单而有效的框架,它能够在车载芯片上执行更快的BEV感知。
为了实现这一目标,作者首先从经验上发现,BEV表示可以足够强大,而无需昂贵的基于transformer的变换或深度表示。
FastBEV由以下五部分组成:
-
(1)Fast-Ray变换
一种轻量级的、易于部署的视图转换,它将2D图像特征快速传输到3D体素空间;
本文提出了Fast Ray变换,这是一种用于快速推理的轻量级和部署友好的视图变换,通过将多视图2D图像特征沿着相机射线的体素投影到3D来获得BEV表示。
-
(2)多尺度图像编码器
一种利用多尺度信息获得更好性能的多尺度图像编码器;
-
(3)高效BEV编码器
一种高效的BEV编码器,它专门设计用于加快车载推理;
-
(4)数据增强
针对图像和BEV空间的强大数据增强策略以避免过度拟合,
-
(5)时间融合
利用时间信息的多帧特征融合机制。
这些都使Fast BEV成为一种具有高性能、快速推理速度和在自动驾驶车载芯片上部署友好的解决方案
领域现状
基于纯相机的鸟瞰图(BEV)方法最近显示出其强大的3D感知能力和低成本的巨大潜力。
基本上遵循这样的范式:将多摄像机2D图像特征转换为自我汽车坐标中的3D BEV特征,然后将特定头部应用于统一BEV表示以执行特定的3D任务,例如,3D检测、分割等。
为了从2D图像特征执行3D感知,nuScenes上的现有BEV方法使用基于查询的transformation [17](由于解码器需要transfromer内的注意机制,这些方法通常需要专用芯片来支持),[18]或基于隐式/显式深度的transformation [13],[15],[26]。然而,它们很难部署在车载芯片上,并且推理速度慢:
参考链接: