[readpaper] Delving into the Devils of Bird‘s-eye-view Perception: A Review, Evaluation and Recipe

arxiv paper

论文印象

BEV Perception Algorithm:

  1. Bird Eye's View,鸟瞰图/俯视图,自动驾驶领域,一般以自动驾驶车辆为坐标原点,结合其周围环境信息构成的视图。
  2. perception,计算机领域,可以理解为计算机通过各种传感器获取外界的信息。
  3. Algorithm,计算机领域,使用各种数据模型来组织、筛选、处理获取到的外界信息,以达到理解外部的世界。

阅读综述有两种受益:

  1. 帮助行外人认识该领域。
  2. 帮助行内人提升对该领域的认识。

摘要

        对于感知任务,学习以BEV的形式学习强大的特征表示是一种趋势,这引起了业界和学术界的广泛关注。大多数自动驾驶算法的传统方法在前视或透视的视角中执行检测、分割、跟踪等。由于传感器配置变得更加复杂,集成来自不同传感器的多源信息并在统一视角中表示特征至关重要。BEV感知继承了几个优点,因为表示BEV中的周围场景是直观和融合友好的;对于规划和/或控制等后续模块,在BEV中表示对象是最理想的。BEV感知的核心问题在于(a)如何从透视图到BEV的视图转换重建丢失的3D信息;(b)如何获取BEV网格中的地面真实注释;(c)如何制定管道合并来自不同来源的特征和视图的特征;(d)如何适应和推广算法,因为传感器配置在不同的场景中是不同的。在本次调查中,我们回顾了最近关于 BEV 感知的工作,并对不同的解决方案进行了深入分析。此外,还描述了业界对 BEV 方法的几种系统设计。此外,我们引入了一套完整的实用指南,以提高BEV感知任务的性能,包括相机、激光雷达和融合输入。最后,我们指出该领域未来的研究方向。我们希望这份报告能够为社区提供一些启示,并鼓励更多关于 BEV 感知的研究工作。我们保留一个活跃的存储库来收集最近的工作,并在 https://github.com/OpenDriveLab/Birds-eye-view-Perception 上提供一袋技巧工具箱。

引言

        自动驾驶中的感知识别任务本质上是对物理世界的三维几何重建。随着自动驾驶车辆上配备的传感器类型和数量越来越复杂,在统一的角度表示来自不同视图的特征至关重要。著名的鸟瞰(BEV)是一种自然而直接的候选视图,可以作为统一的表示。与二维视觉领域中广泛研究的前视图或透视图相比,BEV 表征有几个固有的优点。

  1. 首先,它没有 2D 任务中常见的遮挡或尺度问题。识别遮挡或交叉交通的车辆可以更好地解决。【前视图,容易发生遮挡。透视图,近大远小。】【这里会有个疑问?遮挡一旦发生,不管是什么视角(BEV、前视图、透视图等)都会受到影响。即使BEV使用了多个传感器,如果真的发生遮挡了,也难以感知到被遮挡的目标。
  2. 此外,以这种形式表示对象或道路元素将有利于后续模块(如规划、控制)开发和部署。

此survery,定义BEV感知为所有以BEV视图做为表征的所有感知任务。

请注意,我们并不打算将 BEV 感知夸大为一个新的研究概念;相反,如何在 BEV 视图下制定新的管道或框架,以便更好地从多个传感器输入中提取特征,值得社区更多关注。

1.1 大致浏览

        基于不同的输入数据,BEV感知的研究主要分为三个部分:BEV camera,BEV LiDAR和BEV fusion。图1描述了BEV感知家族的总体情况。具体来说,BEV camera表示仅以视觉或以视觉为中心的算法,采用多个周围摄像机进行3D目标检测或分割;BEV LiDAR以点云为输入来进行检测或分割任务;BEV fusion描述了来自多个传感器输入的融合机制,如相机、激光雷达、GNSS、里程计、HD-Map、CAN-bus等。

        如图1所示,我们将自动驾驶任务的基本感知算法(分类、检测、分割、跟踪等)分为三类,其中BEV感知的概念位于中间。基于传感器输入层、基本任务和产品场景的不同组合,一种组合对应于一个特定BEV感知算法。例如,M2BEV [3] 和 BEVFormer [4] 属于来自多个相机的 BEV 相机轨道,以执行包括 3D 对象检测和 BEV 地图分割在内的多个任务。BEVFusion [5] 在 BEV 空间中设计了一种融合策略,以从相机和 LiDAR 输入同时执行 3D 检测和跟踪。Tesla [6] 发布了其系统管道,用于检测 L2 高速公路导航和智能和mon 向量空间中的对象和车道线。在本报告中,除了各种输入组合和任务之外,我们旨在总结最近高级 BEV 感知研究的一般管道和关键见解。

1.2 BEV感知研究的动机

意义

        BEV感知是否会对学术界和/或社会产生真实和有意义的影响?

        众所周知,仅相机和激光雷达解决方案之间存在巨大的性能差距。例如,截至 2022 年 8 月提交,在 nuScenes 数据集 [7] 上排名第一的仅摄像头和 LiDAR 方法之间的差距超过 20%,Waymo 基准 [8] 上的差距超过 30%。这自然促使我们研究纯相机解决方案是否可以击败或与 LiDAR 方法相当。

        从学术的角度来看,设计一个基于相机的管道以使其优于 LiDAR 的本质是更好地理解从 2D 的视图转换过程,外观输入到 3D,几何输出。如何像点云中那样将相机特征转移到几何表示中,这对学术社会产生了有意义的影响。在工业考虑中,一套激光雷达设备在SDV中的成本是昂贵的;OEM(原始设备制造商,如Ford、BMW等)更倾向于对软件算法进行廉价、准确的部署。提高仅相机的激光雷达算法自然属于这一类,因为相机的成本通常比激光雷达便宜10倍。此外,基于相机的管道可以识别远距离物体和基于颜色的道路元素(如红绿灯),这两者都是激光雷达方法无法做到的。虽然基于相机和LiDAR的感知有几种不同的解决方案,但BEV表示是基于LiDAR的方法在优越的性能和行业友好的部署方面的最佳候选者之一。此外,最近的趋势表明,BEV 表示在多相机输入方面也取得了巨大的进展。由于相机和激光雷达数据可以投影到BEV空间,BEV的另一个潜力是,在统一的表示下,我们可以很容易地融合不同模式的特征。

空间

        BEV感知中是否存在需要实质性创新的开放问题或警告?

        BEV感知背后的要点是从相机和 LiDAR 输入中学习稳健且可推广的特征表示。这在 LiDAR 分支中很容易,因为输入(点云)具有这样的 3D 属性。这在相机分支中并非易事,因为从单目或多视图设置中学习 3D 空间信息很困难。虽然我们看到有一些尝试通过姿态估计[9]或时间运动[10]学习更好的2D-3D对应关系,但BEV感知背后的核心问题需要从原始传感器输入(特别是相机)进行深度估计的大量创新。另一个关键问题是如何在管道的早期或中期融合特征。大多数传感器融合算法将问题视为沿blob通道的简单对象级融合或朴素特征拼接。这可能解释了为什么由于相机和激光雷达之间的错位或不准确的深度预测,一些融合算法的行为不如仅 LiDAR 解决方案。如何对齐和整合来自多模态输入的特征起着至关重要的作用,从而留下广泛的空间进行创新。

准备就绪

        关键条件(例如数据集、基准)是否准备好进行 BEV 感知研究?

        简短的答案是肯定的。由于 BEV 感知需要相机和 LiDAR,因此 2D 和 3D 对象之间的高质量注释和准确的对齐是此类基准的两个关键评估。虽然KITTI[11]是全面的,并在早期的自动驾驶研究中引起了很多关注,但Waymo[8]、nuScenes[7]、Argoverse[12]等大规模多样的基准为验证BEV感知思想提供了坚实的游乐场。这些新提出的基准通常具有高质量的标签;场景多样性和数据量也在很大程度上扩大。此外,这些排行榜上的开放挑战 [13] 在保留的测试数据上提供了公平的设置,其中所有最先进的技术都可以在开放和提示意义上进行比较。

        算法准备就绪,近年来在一般视觉方面取得了很大的进展,其中Transformer[14]、ViT[15,16]、Masked Auto-encoders (MAE)[17]和CLIP[18]等,与传统方法相比取得了令人印象深刻的增益。我们相信这些工作将有利于和激发 BEV 感知研究的巨大性。

        基于以上三个方面的讨论,我们得出结论,BEV感知研究具有很大的潜在影响,值得学术界和工业界的大量关注,为很长一段时间内付出巨大的努力。与最近关于 3D 对象检测的调查 [19, 20, 21, 22, 23] 相比,我们的调查不仅以更高的级别总结了最近的 BEV 感知算法,并将它们制定为通用管道,而且还在这种情况下提供了有用的配方,包括基于相机和基于激光雷达的设置中的可靠数据增强、高效的 BEV 编码器设计、感知头和损失函数族、有用的测试时间增强 (TTA) 和集成策略等。我们希望这项调查可以成为新初学者的一个很好的起点,并对该领域的当前研究人员进行了深刻的讨论。

1.3 贡献

本次调查的主要贡献有三方面:1)我们回顾了近年来 BEV 感知研究的全貌,包括高级哲学和深入的详细讨论。2)我们详细阐述了BEV感知文献的综合分析。涵盖了深度估计、视图变换、传感器融合、域适应等核心问题。还介绍并讨论了几种重要的 BEV 感知工业系统级设计。3)除了理论贡献外,我们还提供了一个实用的导书,以提高各种BEV感知任务的性能。这样的版本可以促进社区在抓取和放弃的食谱意义上获得更好的性能。

3 BEV感知方法

3.4 BEV感知的工业设计

        近年来,BEV感知在工业中越来越受欢迎。在本节中,我们描述了在系统级别上 BEV 感知的架构设计。图5描述了工业应用中传感器融合的两种典型范式。在BEV感知研究之前,大多数自动驾驶公司基于透视图输入构建感知系统。如图 5a 所示,在透视图 (PV) 管道中,LiDAR 轨迹直接提供 3D 结果,而基于图像的 3D 结果通过几何先验从 2D 结果转换。然后,通过手工制作的方法将图像和激光雷达的预测进行融合。相反,基于 BEV 的方法,如图 5b 所示,执行特征级 2D 到 3D 转换并集成特征而不是不同模态的直接检测输出,导致手工设计更少,鲁棒性更强。

        图 6 总结了全球公司提出的各种 BEV 感知架构。详细的模型/输入选项在附录的 D 节中描述。请注意,本次调查中呈现的所有信息都是从公共资源中收集的;不同计划之间的比较和分析基于事实。图 6 中的 BEV 融合架构遵循如图 5b 所示的管道,由输入数据、特征提取器、PV 到 BEV 变换、特征融合模块、时间和空间模块和预测头组成。我们将在下面详细说明每个模块。

3.4.1 基于输入数据

        BEV 的感知算法支持不同的数据模式,包括相机、激光雷达、雷达、IMU 和 GPS。相机和激光雷达是自动驾驶的主要感知传感器。一些产品只使用相机作为输入传感器,例如特斯拉[6]、PhiGent[128]、Mobileye[129]。其他人采用一套相机和激光雷达组合,如Horizon[127]、HAOMO[130]。请注意,IMU 和 GPS 信号通常用于传感器融合计划 [6, 127, 130],如 Tesla 和 Horizon 等。

3.4.2特征提取器

        特征提取器特征提取器用于将原始数据转换为适当的特征表示,该模块通常由主干(backbone)和颈部(neck)组成。

        backbone和neck有不同的选择。图像backbone,特斯拉选择RegNet,毫末选择ResNet;图像Neck,特斯拉选择BiFPN,毫末选择FPN。对于点云,毫末选择pillar based,Mobileye选择voxel based.(这些都不是绝对的,一般都会做实验验证,那种效果好选择哪种)。

3.4.3 PV 到 BEV 变换

        在工业中执行视图转换主要有两种方法:

        (a)固定 IPM。基于平坦的地面假设,固定变换可以将PV特征投影到BEV空间。固定的IPM投影很好地处理了地平面。然而,它对车辆打磨和道路平坦度很敏感。

        (b) 自适应 IPM 利用 SDV 的外在参数,这些参数是通过一些姿态估计方法获得的,并相应地将特征投影到 BEV 中。虽然自适应IPM对车辆姿态具有鲁棒性,但它仍然假设在平坦的地面假设上。

        (c) 基于 Transformer 的 BEV 变换采用密集变换器将 PV 特征投影到 BEV 空间中。Tesla、Horizon、HAOMO 广泛采用这种基于数据驱动的转换的方法。

        (d) ViDAR 最早于 2018 年由 Waymo 和 Mobileye 在不同的场所并行提出 [13, 129],以表明使用像素级深度根据相机或视觉输入将 PV 特征投影到 BEV 空间的做法,类似于 LiDAR 中的表示形式。ViDAR一词等价于大多数学术文献中提出的伪激光雷达的概念。配备ViDAR,可以直接将图像和随后的特征转换为点云。然后可以应用基于点云的方法来获得BEV特征。最近,我们看到了许多ViDAR应用[6,13,129,134,135],例如特斯拉、Mobileye、Waymo、丰田等。总体而言,Transformer和ViDAR的选项在工业上最为普遍。

3.4.4融合模块

        不同相机源之间的对齐在之前的BEV转换模块中完成。在融合单元中,他们进一步逐步聚合相机和激光雷达的BEV特征。通过这样做,来自不同模态的特征最终被整合到一个统一的形式中。

3.4.5 时间和空间模块

        通过在空间和时间上堆叠 BEV 特征,可以构建一个特征队列。时间堆栈每次固定时间推送和弹出一个特征blob,而空间堆栈每次固定距离执行它。在将这些堆栈中的特征融合成一种形式后,可以得到一个时空BEV特征,该特征对遮挡具有鲁棒性[6,130]。聚合模块可以是 3D 卷积、RNN 或 Transformer 的形式。基于时间模块和车辆运动学,可以保持自我车辆周围的大型BEV特征图,局部更新特征图,就像特斯拉[6]的空间RNN模块一样。

3.4.6 预测头

        在 BEV 感知中,广泛采用多头设计。由于BEV特征聚合来自所有传感器的信息,所有 3D 检测结果都是从 BEV 特征空间中解码的。同时,在一些设计中,PV 结果也从相应的 PV 特征解码。预测结果可以分为三类[127]:(a)低水平结果与物理约束有关,如光流、深度等(b)实体水平结果包括物体的概念,即车辆检测、车道线检测等(c)结构水平结果表示物体之间的关系,包括目标跟踪、运动预测等。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Cascade Mask R-CNN的原文标题为"Cascade R-CNN: Delving into High Quality Object Detection",由Zhaowei Cai、Qijie Zhao、Yi Li和Jianping Shi于2018年在IEEE Conference on Computer Vision and Pattern Recognition (CVPR)上发表。 ### 回答2: Cascade Mask R-CNN是一篇名为"Cascade Mask R-CNN"的论文,该论文由一组研究人员撰写,并于2018年发表。 该论文的主要贡献是提出了一种新的对象检测和实例分割算法,称为Cascade Mask R-CNN。这种算法在基于区域的卷积神经网络(R-CNN)的基础上进行了创新。 在传统的Mask R-CNN中,对象检测和实例分割是同时进行的,并且具有两个并行的分支。而Cascade Mask R-CNN通过级联级联多个级别的分类器和分割器来改进该方法。它的基本思想是采用级联结构来提高分类和分割的精度。 Cascade Mask R-CNN的核心是级联结构的层数。每一级都有一个独立的RPN(Region Proposal Network)用于生成候选框,一个ROI(Region of Interest)pooling层从候选框中提取特征,一个用于分类的分类头和一个用于分割的分割头。级联结构的关键之处在于将前一级的输出作为下一级的输入,从而逐步提高性能。 论文还提出了一种新的loss函数来训练级联结构。该损失函数结合了分类损失和分割损失,同时考虑了不同级别的结果。通过多阶段的训练过程,Cascade Mask R-CNN能够逐步优化性能,提高检测和分割的准确性。 实验结果表明,Cascade Mask R-CNN在多个常用的数据集上都取得了优秀的结果。相比于其他目标检测和实例分割方法,Cascade Mask R-CNN在准确性方面具有明显的改进。它被广泛应用于各种计算机视觉任务,并在学术和工业界产生了显著影响。 总的来说,Cascade Mask R-CNN是一篇重要的论文,提出了一种新颖的对象检测和实例分割方法。它通过级联结构和新的损失函数来逐步提高性能,取得了显著的成果,对计算机视觉领域的发展具有重要意义。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值