Occupancy Network综述！Grid-Centric的感知方法（BEV/多任务/轨迹预测等）

最新推荐文章于 2024-05-29 07:30:00 发布

自动驾驶之心

最新推荐文章于 2024-05-29 07:30:00 发布

阅读量1.4k

点赞数 1

文章标签：人工智能计算机视觉目标检测深度学习机器学习

本文链接：https://blog.csdn.net/CV_Autobot/article/details/129359800

版权

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

点击进入→自动驾驶之心【BEV感知】技术交流群

后台回复【OccupanyNetwork】获取Occupany Network相关论文干货资料！

摘要

网格中心感知是移动机器人感知和导航的关键领域。尽管如此，在自动驾驶中，网格中心感知不如目标中心感知更为普遍，因为自动驾驶车辆需要准确地感知高度动态、大规模的室外交通场景，并且以网格为中心的感知的复杂性和计算成本很高。深度学习技术和硬件的快速发展为Grid-Centric 感知的发展提供了新的见解，并使许多实时算法得以部署。当前的工业和学术研究证明了网格中心感知的巨大优势，如全面的细粒度环境表示、对遮挡的更强鲁棒性、更高效的传感器融合和更安全的规划策略。鉴于目前缺乏对这一快速扩展领域的调查，本文对自动驾驶汽车的网格中心感知进行了分层结构审查。组织了occupancy grid 技术的先前和当前work，并从三个方面对算法进行了系统深入分析：特征表示、数据实用性和自动驾驶系统中的应用。最后总结了当前的研究趋势，并提出了一些可能的未来展望。

自动驾驶汽车的安全运行要求准确、全面地反映周围环境，由3D目标检测、多目标跟踪和轨迹预测组成的以目标为中心的pipeline是主要的3D汽车感知模块。然而，以object为中心的技术在目标的形状或外观不明确的开放世界交通场景中可能会失败。这些障碍物也称为长尾障碍物，包括可变形的障碍物，如两节拖车；异形障碍物，如翻车的车辆；未知类别的障碍物，如道路上的碎石、垃圾；部分遮蔽的物体等。因此，迫切需要对这些长尾问题进行更稳健的表示，网格中心感知被认为是一个很有前途的解决方案，因为它能够在不知道物体的情况下提供3D周围空间中任何位置的占用和运动。这一领域受到了很多关注，最近的进展表明，它仍然是自动驾驶汽车中最有前途和最具挑战性的研究课题之一，为此，我们打算对网格中心感知技术进行全面的回顾。

网格地图已被广泛认为是移动机器人和自动驾驶车辆安全导航的必要先决条件，从完善的占用网格图（OGM）开始，将周围区域划分为统一的网格单元。每个单元格的值代表占用率的conf，这对于避免碰撞至关重要且有效。随着深度神经网络的发展，以网格为中心的方法正在快速发展，现在比传统的OGM更全面地理解语义和运动。总之，现代以网格为中心的方法能够预测每个网格单元的占用率、语义类别、未来运动位移和实例信息。以网格为中心的方法的输出是真实世界规模的，固定在自我姿态坐标上。通过这种方式，以网格为中心的感知成为支持下游驾驶任务（如风险评估和车辆轨迹规划）的重要前提！

与基于目标的表示相比，基于网格的表示的显著优势如下：对障碍物的几何形状或语义类别不敏感，对遮挡的抵抗力更强；理想的多模态传感器融合，作为不同传感器对齐的统一空间坐标；鲁棒不确定性估计，因为每个单元存储不同障碍物存在的联合概率。然而，以网格为中心的感知的主要缺点是高复杂性和计算负担。

关于汽车感知的现有调查，包括3D目标检测[1]、来自图像的3D目标检测[2]、神经辐射场（NeRF）[3]、以视觉为中心的BEV感知[4]、[5]，涵盖了网格中心感知中的部分技术。然而，这些评估中没有彻底讨论以网格表示为中心的感知任务、算法和应用程序。本文全面概述了用于自动驾驶汽车应用的网格中心感知方法，并从各种模式和方法类别对网格中心感知进行了深入研究和系统比较。论文强调基于实时深度学习算法的感知技术，而不是离线映射技术，如多视图立体（MVS）。对于特征表示，这里也涵盖了BEV和3D网格的显式映射，以及新兴的隐式映射技术，如NeRF。作者研究了整个自动驾驶系统背景下的网格中心感知，包括时间一致的数据序列中的时间任务、多任务处理、高效学习以及与下游任务的连接！这篇综述的主要贡献：

1）这是从自动驾驶的各个角度对以网格为中心的感知方法进行了首次全面回顾；
2）提供了以网格为中心的感知技术的结构和层次概述，分析了以网格为中心的自动驾驶实践的学术和行业观点；
3）总结了当前趋势的观察结果，并为以网格为中心的认知提供了未来展望；

如图1所示，本文以分层结构的分类法组织，除了背景和OGM基础知识之外，还重点讨论了分类法中的四个核心问题：特征的空间表示、特征的时间表达、高效算法以及以网格为中心的感知在自动驾驶系统中的应用。部分II介绍了网格中心感知的背景，包括任务定义、常用数据集和度量。部分III讨论了将多模态传感器投影到BEV特征空间的技术，以及相关的2D BEV网格任务。部分IV讨论了在3D体素网格中表示全场景几何，包括基于LiDAR的语义场景补全（SSC）和基于相机的语义场景重建。部分V介绍了为历史网格特征的聚合和短期或长期全景占用预测而设计的时间模块。第六节介绍了高效的多任务模型和计算效率高的网格模型以及对网格上的并行计算至关重要的快速算子。第七章介绍了学术界和工业界在自动驾驶系统中的网格中心感知实践，部分VIII介绍了最先进的以网格为中心的感知技术的几个未来展望，部分IX总结了本文。补充材料中介绍了自动驾驶领域中成熟的非深度学习OGM及其变体，包括离散占用网格、连续占用网格和动态占用网格。

领域背景

本节介绍任务公式、常用数据集和网格中心感知的度量！

1）网格中心感知的任务定义

网格中心感知指的是给定机载传感器的多模态输入，算法需要将原始信息转换为BEV或体素网格，并在每个网格单元上预成型各种感知任务，网格中心感知的一般公式可以表示为：

其中G是过去和未来网格级表示的集合，而I表示一个或多个传感器输入，如何表示网格属性和网格特征是该任务中的两个关键问题，以网格为中心的感知过程如图2所示。

传感输入：自动驾驶汽车严重依赖多个摄像头、激光雷达传感器和雷达传感器进行环境感知。相机系统可以由单目相机、立体相机或两者组成。它相对便宜，并提供高分辨率图像，包括纹理和颜色信息。然而，相机无法获得直接的3D结构信息和深度估计。此外，图像质量高度依赖于环境条件！

LiDAR传感器以点云的形式生成场景的3D表示，其中N是场景中的点数，每个点包含x、y、z坐标以及反射强度等额外属性。由于深度感知、更宽的视野和更大的检测范围，LiDAR传感器在自动驾驶中的使用频率更高，对环境条件的影响更小，但这些应用主要受到成本的限制。

雷达传感器是自动驾驶中最重要的传感器之一，因为其成本低、探测距离长，并且能够在恶劣环境中探测移动目标。雷达传感器返回包含目标相对位置和速度的点，然而，雷达数据更稀疏，对噪声更敏感。因此，自动驾驶车辆经常将雷达数据与其它数据输入相结合，以提供额外的几何信息。据信，4D成像雷达将成为低成本L4-L5自动驾驶的关键推动者，并有显著改进。4D成像雷达能够以更高的分辨率生成密集的点云，并估计物体的高度。很少有4D雷达应用于网格中心感知。

与3D目标检测的比较：3D目标检测侧重于使用3D边界框表示常见的道路障碍，而以网格为中心的检测则细分道路障碍的低水平占用率和语义线索。以网格为中心的感知有几个优点：它放松了对障碍物形状的限制，可以描述具有可变形状的铰接对象；它放松了障碍的典型性要求。它可以准确地描述新类和实例的占用和运动线索，从而增强系统的鲁棒性。在目标检测领域，新的类和实例可以通过开放集或开放世界检测技术部分处理，但对于以目标为中心的感知来说，这仍然是一个长尾问题。

a）几何任务：

二维占用网格mapping：OGM是一项简单实用的任务，用于建模周围环境中的占用空间和自由空间。占用率是OGM的核心思想，它表示占用概率除以自由概率的信念。

3D占用mapping：3D占用mapping定义为在体积空间中建模占用，基本任务是使用大小相等的立方体体积的体素网格来离散映射区域。

b）语义任务：BEV分割：BEV分割被定义为BEV网格的语义或实例分割。通常划分的类别包括动态对象（车辆、卡车、行人和骑自行车的人）和静态道路布局和地图元素（车道、人行横道、可行驶区域、人行道）。语义场景补全：SemanticKITTI数据集首先定义了户外语义场景补全的任务，给定单扫描激光雷达点云，SSC任务是预测特定体积内的完整场景。在自我车辆周围的场景中，体积由统一的体素网格表示，每个体素网格都具有占用（空或占用）的属性及其语义标签。

3）时间任务：BEV运动任务的定义是预测每个网格单元的短期未来运动位移。也就是说，每个网格单元在短时间内可以移动多远。动态占用网格（DOG）是OGM的补充，它可以对具有双向速度（vx，vy）和速度不确定性的动态网格单元进行建模。

occupancy flow：长期占有率预测将标准OGM扩展到流场，缓解了轨迹集预测和占有率的一些缺点。occupancy flow任务需要预测流场中所有代理的运动和位置概率，Waymo在CVPR2022研讨会上的开放数据集占用率和光流挑战规定，给定场景中真实代理的1秒历史，任务必须在8秒内预测所有代理的流场。

与场景流的比较：光学或场景流的目的是估计图像像素或LiDAR点从过去到现在的运动，场景流方法在原始数据域上运行。由于点云的空间分布不规则，很难确定两个连续帧的点云之间的匹配关系，因此提取其真实值并不简单，点云的场景流遇到了实际问题。相比之下，在离散二维空间之后，BEV运动可以应用快速深度学习组件（如2D卷积网络），以便流场在自动驾驶的实时要求下运行！

2）Datasets

以网格为中心的方法主要是在现有的大型自动驾驶数据集上进行的，这些数据集带有3D目标边界框的注释、LiDAR分割标签、2D和3D车道的注释以及高清地图。网格中心感知的最有影响力的基准包括KITTI、nuScenes、Argoves、Lyft L5、SemanticKITTI、KITTI-360、Waymo开放数据集（WOD）和Once数据集。注意，以网格为中心的感知通常不是每个数据集的标准挑战，因此测试集被搁置，大多数方法在验证集上报告其结果。Table 1总结了这些基准的信息。当前的驱动数据集主要用于对完全监督的封闭世界对象中心任务进行基准测试，这可能会阻碍网格中心感知的独特优势。未来的数据集可能需要更加多样化的开放世界驾驶情况，其中潜在的障碍物不能表示为边界框。Argoverse2数据集是其10Hz密集注释1k传感器序列的下一代数据集，具有26个类别和超大规模、未标记的6M LiDAR帧！

3）Evaluation Metrics

BEV分割指标：对于传统OGM中的二进制分割（将网格划分为占用和空闲），大多数以前的工作使用精度作为简单的度量。对于语义分割，主要度量是每个类的IoU和所有类的mIoU。

BEV预测指标：MotionNet通过将每个网格单元与BEV地图中的位移向量相关联来编码运动信息，并通过将非空网格单元分类为三个速度范围来提出运动预测的度量：静态、慢速（≤5m/s）和快速（>5m/s）。在每个速度范围内，已利用预测位移和真实位移之间的平均和中值L2距离。

FIERY使用视频全景质量（VPQ）度量来预测BEV图中的未来实例分割和运动，该指标定义为：

3D占用率预测指标：语义场景补全的主要度量是所有语义类的mIoU，在场景补全时使用IoU、Precision和Recall来评估几何重建质量。3D占用预测挑战测量F得分作为完整性Pc的调和平均值，精度Pa，F得分计算如下：

鸟瞰图二维栅格表示

BEV网格是道路车辆障碍物检测的常用表示。以网格为中心的感知的基本技术是将原始传感器信息映射到BEV网格单元，这些网格单元在不同传感器模态的机制上有所不同。LiDAR点云在3D空间中自然表示，因此在BEV地图上提取点或体素特征是一个长期的传统。相机富含语义线索，但缺乏几何线索，这使得3D重建成为一个不适定的问题。考虑到用于将图像特征从透视视图投影到BEV视图（PV2BEV）的算法在最近的综述中得到了全面讨论[4]，[5]，本文在补充材料中介绍了与BEV网格相关的PV2BEV算法的最新进展。

1）LiDAR-based Grid Mapping

LiDAR点云的特征提取遵循以下范例：点、体素、柱、range视图或来自上方的混合特征。本节重点介绍点云到BEV栅格的特征映射。在3D空间中收集的激光雷达数据可以很容易地转换成BEV，并与来自多视图相机的信息融合，LiDAR点云的稀疏和可变密度使得CNN效率低下。一些方法将点云体素化为统一网格，并使用手工特征对每个网格单元进行编码。MV3D、AVOD通过利用高度、强度和密度特征对每个网格进行编码来生成BEV表示。PIXOR中的BEV表示是3D占用张量和2D反射图的组合，将高度信息保持为通道。BEVDetNet在Nvidia Xavier嵌入式平台上进一步将基于BEV的模型延迟降低到2ms。对于网格上的高级时间任务，MotionNet提出了一种新的时空编码器STPN，它将过去的点云与当前的自我姿态对齐，网络设计如图4所示。

然而，这些固定编码器在利用点云中包含的所有信息方面并不成功，学习的特征成为一种趋势。VoxelNet堆叠体素特征编码（VFE）层以编码体素内的点交互，并生成稀疏的4D体素特征。然后VoxelNet使用3D卷积中间层来聚合和重塑该特征，并将其通过2D检测架构。为了避免硬件不友好的3D卷积，PointPillars和EfficientPillarNet中基于pillar的编码器学习点云柱上的特征，可以将特征散射回原始柱位置以生成2D伪图像。PillarNet通过将加密的pillar语义特征与neck模块中的空间特征相融合，进一步发展了pillar表示，以最终检测方向解耦的IoU回归损失，PillarNet的编码器如图3所示。

2）Deep Fusion on Grids

多传感器多模态融合是汽车感知的一个长期问题，融合框架通常分为早期融合、深度融合和晚期融合。其中，深度融合在端到端框架中表现最佳，以网格为中心的表示为多个传感器和代理之间的深度融合提供了统一的特征嵌入空间。

1）多传感器融合：相机是几何损失但语义丰富，而激光雷达是语义损失但几何丰富。雷达在几何和语义上是稀疏的，但对不同的天气条件是鲁棒的，深度融合融合了不同模态的潜在特征，并补偿了每个传感器的局限性。

激光雷达相机融合：一些方法在更高的3D级别执行融合操作，并支持3D空间中的特征交互。UVTR根据预测的深度分数对图像中的特征进行采样，并根据准确位置将点云的特征与体素相关联。因此，可以引入用于体素空间中的跨模态交互的体素编码器。AutoAlign设计了交叉注意力特征对齐模块（CAFA），以使点云的体素化特征能够感知整个图像并执行特征聚合。AutoAlignV2不通过AutoAlign中的网络学习对齐，而是包括跨域DeformCAFA，并使用相机投影矩阵来获取图像特征映射中的参考点。UTR3D和TransFusion基于注意力机制和查询融合特征。FUTR3D采用基于查询的模态不可知特征采样器（MAFS）根据3D参考点提取多模态特征，TransFusion依靠LiDAR BEV特征和图像引导来生成对象查询，并将这些查询与图像特征融合。一种简单而鲁棒的方法是统一BEV特征的融合，BEVFusion的两种实现，如图5所示，统一了共享BEV空间中多模态输入的特征。DeepInteration和MSMDFusion设计了BEV空间和体素空间中的多模型交互，以更好地对齐不同传感器的空间特征。

相机雷达融合：雷达传感器最初设计用于高级驾驶辅助系统（ADAS）任务，因此其精度和密度不足以用于高级自动驾驶任务。OccupancyNet和NVRadarNet仅使用雷达进行实时障碍物和自由空间检测。相机-雷达融合是一种有前途的低成本感知解决方案，它补充了雷达几何的语义。SimpleBEV、RCBEVDet和CramNet研究了BEV上雷达特征表达和与视觉BEV特征融合的不同方法。RCBEVDet使用PointNet++网络处理多帧聚合雷达点云。CramNet将相机特征设置为查询，将雷达特征设置为值，以在3D空间中沿像素射线检索雷达特征。SimpleBEV将多帧雷达点云体素化为二进制占用图像，并使用元数据作为附加通道。RRF通过投影和采样从每个相机产生3D特征体积，然后连接光栅化的雷达BEV图，通过降低垂直维度，最终获得BEV特征图！

激光雷达-Camera-雷达融合：激光雷达、雷达和相机融合是一种适用于所有天气的强大融合策略。RaLiBEV采用了一种基于交互式transformer的bev融合，该融合融合了LiDAR点云和雷达距离方位热图。FishingNet使用自上而下的语义网格作为公共输出接口，以进行激光雷达、雷达和摄像机的后期融合，并对语义网格进行短期预测！

2）多智能体融合：最近关于以网格为中心的感知的研究大多基于单智能体系统，这在复杂的交通场景中具有局限性。车辆对车辆（V2V）通信技术的进步使车辆能够共享其感知信息，CoBEVT是第一个可以协同生成BEV分段地图的多智能体多相机感知框架。在这个框架中，自我车辆根据发送者的姿态对接收到的BEV特征进行几何warp，然后使用具有融合轴向注意力（FAX）的transformer将其融合。动态占用网格图（DOGM）还显示了减少多车辆协同感知融合平台中不确定性的能力。

3D Occupancy建图

尽管BEV网格简化了动态场景的垂直几何结构，但3D网格能够以相当低的分辨率表示驾驶场景的完整几何结构，包括道路表面和障碍物的形状，代价是较高的计算成本。LiDAR传感器自然适用于3D占用网格，但点云输入有两个主要问题：第一个挑战是从障碍物表面反射的点推断全场景几何体。第二种是从稀疏的激光雷达输入中推断出密集的几何体，基于相机的方法正在3D占用mapping中出现，图像的像素自然密集，但需要将深度图转换为3D占用率！

1）基于LiDAR的语义场景补全

语义场景补全（SSC）是一项明确推断均匀大小体素的占用率和语义的任务，SemanticKITTI给出的SSC定义是基于单帧LiDAR点云推断每个体素网格的占用率和语义。过去的调查[76]彻底调查了室内和室外SSC数据集和方法。本节重点介绍自动驾驶SSC方法的进展，表II给出了SemanticKITTI上现有方法在LiDAR或相机作为输入时的详细类性能！

SemanticKITTI是SSC的第一个真实世界户外基准，它报告了基于SSCNet和TS3D的四种基线方法的结果。由于SSC严重依赖上下文信息，早期的方法从U-Net架构开始。SSCNet采用翻转截断有符号距离函数（fTSDF）来编码单个深度图作为输入，并将其通过3D密集CNN。基于SSCNet，TS3D将从RGB图像推断的语义信息和体素占用率结合起来，作为3D密集CNN的输入。注意，与RGB-D序列相比，LiDAR点云是自动驾驶更常见的输入。因此，SemanticKITTI基准使用来自LiDAR的距离图像而不是来自RGB-D的深度图，将没有fTSDF的TS3D和SSCNet作为基线。其他两个基线通过直接使用基于LiDAR的语义分割方法中的标签并与SATNet交换3D主干来修改TS3D。

SSCNet和TS3D中密集的3D CNN块导致高内存和计算需求以及数据流形的扩展。解决这个问题的一个备选方案是利用2D CNN的效率。LMSCNet使用具有2D主干卷积和3D分割头的轻量级U-Net架构，转动高度标注（对于数据主要纵向和横向变化的交通场景），将数据转换为特征维度成为一种常见的实践。基于Pillar的LMSCNet在速度上实现了良好的性能，并具有推断多尺度SSC的能力。类似地，局部DIF创建点云的BEV特征图，并将其通过2D U-Net以三个尺度输出特征图，这构成了3D场景的新颖表示，连续的深度隐式函数（DIFs）。通过查询所有体素的角点函数，可以在SemanticKITTI基准上评估局部DIF，并在几何完成精度方面表现良好。

另一个有希望的替代方案是使用稀疏3D网络，例如JS3C Net中使用的SparseConv和S3CNet中使用的Minkowski，其仅对非空体素进行操作。JS3C-Net是一个稀疏的LiDAR点云语义分割框架，将SSC作为辅助任务。它包括点体素交互（PVI）模块，以增强这种多任务学习并促进两个任务之间的知识转移。对于语义分割，它使用3D稀疏卷积U-Net。级联SSC模块预测粗略的完成结果，该结果在PVI模块中进行了细化。实验表明，JS3C Net在这两项任务上都取得了最先进的结果。S3CNet从单个LiDAR扫描构建稀疏2D和3D特征，并通过稀疏2D和三维U-Net样式的网络并行传递。为了避免在解码器中应用密集卷积，S3CNet提出了BEV和3D预测的动态体素后期融合，以进一步加密场景，然后应用空间传播网络来细化结果。特别是，它在SemanticKITTI的罕见类中取得了令人印象深刻的结果。

Limitation of label formulation：由于现有的室外SSC基准从聚合多帧语义点云生成标签，动态对象的痕迹是标签中不可避免的干扰，称为sptaio时间cube。由于SemanticKITTI中有大量停放的车辆，所有现有的SSC方法都预测动态对象，就像它们是静态的一样，并受到基准度量的惩罚。为了解决地面真实性不准确的问题，并关注输入瞬间的SSC，Local DIF提出了一种基于SemanticKITTI的数据集变体，通过仅对动态对象保持单个即时扫描，并移除动态对象阴影内的自由空间点。此外，local DIF可以连续表示场景以避免伪影。[42]开发了一个合成的室外数据集CarlaSC，没有CARLA中自我车辆周围的遮挡和痕迹。他们提出了一种实时密集局部语义映射方法MotionSC，该方法融合了MotionNet的时空主干和LMSCNet的分割head。

注意，忽略时间信息的MotionSC在SemanticKITTI基准上也表现良好。最近，TPVFormer用稀疏LiDAR分割标签代替密集体素网格标签，以监督来自环绕视图相机的密集语义占用。与具有固定分辨率的体素标签相比，点云标签更容易访问（对于注释和自动标记而言成熟），并且它们可以作为具有任意感知范围和分辨率的体元网格的监督。

2）基于Camera的语义场景重建

1）基于显式体素的网络：与由SFM表示的离线mapping方法不同，将像素投影到三维空间的在线感知是一项新任务。基于相机的SSC方法在SemanticKITTI基准上的性能不如其他基于LiDAR的方法，这是因为缺少几何信息和相机的FOV较窄。nuScene最近的新标签有助于提高以视觉为中心的方法的性能。MonoScene是第一个基于单目相机的室外三维体素重建框架，它使用SSC任务中的密集体素标签作为评估指标。它包括用于连接2D和3D U-Net的2D特征视线投影（FLoSP）模块，以及用于增强上下文信息学习的3D上下文关系先验（CRP）层VoxFormer是一个基于两级transformer的框架，它从深度图中稀疏可见和占用的查询开始，然后将其传播到具有自关注的密集体素。OccDepth是一种基于立体的方法，通过立体软特征分配模块将立体特征提升到3D空间。它使用立体深度网络作为教师模型，提取深度增强占用感知模块作为学生模型。与上述需要密集语义体素标签的方法不同，TPVFormer是第一个仅使用稀疏LiDAR语义标签作为监督的环绕视图3D重建框架。TPVFormer将BEV推广为三透视视图（TPV），这意味着通过垂直于x、y、z轴的三个切片来表达三维空间的特征，它查询3D点以以任意分辨率解码占用率。

2） Implicit Neural Rendering：INR是用连续函数表示各种视觉信号，作为一种开创性的新范式，神经辐射场（NeRF）由于其两个独特的特点：自我监督和照片逼真，在计算机图形学和计算机视觉领域引起了越来越多的关注。尽管vanilla NeRF专注于视图渲染而非3D重建，但进一步的研究探索了NeRF对3D场景、对象和表面建模的能力。NeRF广泛应用于驾驶模拟器的人类化身和城市场景构建，Urban Radiance Field在LiDAR监督下重建城市级场景，街区NeRF将街道划分为街区，并分别对每个MLP街区进行训练。NeRF在3D感知中的应用仍有待探索和挑战，因为交通场景感知需要快速、few-shot、可推广的NeRF，在无界场景中具有高深度估计精度。SceneRF引入了一种概率射线采样策略，用高斯混合表示连续密度体积，并显式优化深度。SceneRF是第一个使用NeRF的自监督单视图大规模场景重建。CLONeR将显式占用网格和隐式神经表示与OGM相融合，使用相机获取颜色和语义线索，使用LiDAR获取占用线索。总之，显式体素占用网格和隐式NeRF的混合表示是建模街道级场景的一个有前途的解决方案。

时间网格中心感知

由于自动驾驶场景在时间上是连续的，因此利用多帧传感器数据获取时空特征和解码运动线索是网格中心感知的重要问题。顺序信息是对现实世界观察的自然增强，运动估计的主要挑战是，与可以容易地将新检测到的物体与过去的轨迹相关联的物体级感知不同，网格不存在明确的对应关系，这增加了精确速度估计的难度。

1）序列BEV特征的时间模块

大多数实践通过设计时间融合块将BEV特征wrap到当前帧。基于包裹的方法的核心思想是基于车辆的自我姿态在不同时间戳包裹和对齐BEV空间，不同的时间聚集方法如图7所示。早期[29]，[86]，[87]使用简单的卷积块进行时间聚集。BEVDet4D将包裹的空间连接在一起，BEVFormer使用可变形的自关注来融合包裹的BEV空间。UniFormer认为基于包装的方法是低效的串行方法，并在感知范围边缘丢失有价值的信息。为此，UniFormer建议关注当前BEV和缓存的过去BEV之间的虚拟视图，这可以融合更大的感知范围和更好的模型远程融合。

2）短期运动预测

任务和网络：对于不同的传感器模态，短期运动预测被描述为两个公式。对于以激光雷达为中心的方法，其任务是在接下来的1.0秒内仅预测非空柱上的运动位移，该公式更加强调每格速度，基本网络设计由一个时空编码器和几个BEV解码器组成。对于以视觉为中心的方法，常见的任务是预测未来2.0秒的实例流，该公式更关注未来的占用状态，而不是网格速度。基本网络设计由图像编码器、视图投影仪、时间聚集模块、预测模块和几个BEV解码器组成。

标签生成：生成网格流（场景流）标签的常见做法来自对具有唯一实例ID的3D边界框的相邻帧的后处理！

时空网络的主干：点云自然位于3D空间中，可以在数据级别上聚合。聚合需要精确的定位，可以从高精度GNSS设备或点云配准方法收集，以将点云坐标转换为当前的自我车辆坐标系统。以多帧点云为输入的特征提取主干能够同时提取空间和时间维度的信息，以减少计算负载。一种紧凑的设计是将点云体素化，将点云视为伪BEV地图，将垂直信息视为每个BEV网格上的特征。MotionNet提出了一种轻量级、高效的时空金字塔网络（STPN）来提取时空特征。BE-STI建议TeSE和SeTE执行特征的双向增强，TeSE用于每个单独框架的空间理解，SeTE用于通过空间辨别特征获得高质量的运动线索。

以视觉为中心的方法：现有方法遵循FIERY中的设计，预测头由一个轻量级BEV编码器和四个BEV解码器组成。五个独立的解码器分别输出中心度、BEV分割、中心偏移和未来flow 向量。后处理单元将偏移与中心相关联，以形成来自分割的实例，并输出来自多帧实例的实例流。空间回归损失以L1或MSE范数的方式对中心、偏移和未来流量进行回归。交叉熵损失用于分类，概率损失回归了BEV特征之间的Kullback-Leibler差异。

3）Long-term Occupancy Flow

将给定GT历史对象的未来非端到端占用预测作为长期占用flow任务。OGM域上的流场结合了两种最常用的运动预测表示：轨迹集和占用网格。占用率flow的主要功能是使用顺序流向量从遥远的未来网格追踪到当前时间位置的占用率。DRF使用自回归序列网络来预测占用残差，ChaufferNet通过多任务占用学习补充了更安全的轨迹规划。道路规则提出了一个动态框架，用于从占用流中解码轨迹。MP3预测每个网格的运动向量及其对应的可能性，Waymo Occupancy Flow挑战的前三名参与者是HOPE、VectorFlow和STrajNet。HOPE是一种新的分层时空网络，具有丰富的潜在变量的多尺度聚合器。矢量化和光栅化表示相结合使ectorFlow受益，STrajNet在轨迹特征和光栅化特征之间具有交互感知transformer。

网格中心感知的有效学习

自动驾驶场景中的算法对多种性能因素敏感，如效率、准确性、内存、延迟和标签可用性。为了提高模型效率，与以前的模块化系统设计（其中一个模块负责一个感知任务）相比，具有共享大主干和多个任务特定预测头的多任务模型在工业应用中更受欢迎。为了提高标签效率，网格标签的标注成本很高，这主要来自LiDAR点云上的逐点标注，因此迫切需要标签高效学习技术。为了提高计算效率，由于在网格上进行计算通常需要时间和内存，因此引入了用于高效表示体素网格的结构和用于加速基于体素的操作的运算符！

1）多任务模型

许多研究表明，在多任务模型中一起预测几何、语义和时间任务可以提高每个模型的准确性。最近的进展在一个基本框架中处理更多的感知任务，而不是以网格为中心的任务。BEV网格上的统一框架对于汽车感知系统是有效的，本节将介绍一些常用的多任务学习框架。

1） BEV联合分割和预测：BEV网格中运动物体的准确识别是BEV运动预测的重要前提，因此，过去的实践证明，准确的语义识别有助于运动和速度估计。常见的实践包括时空特征提取主干和任务指定头部、用于分类网格所属类别的分割head、用于对静止或动态网格进行分类的状态head、可以预测每个网格到实例中心的偏移的实例head以及用于预测短期运动位移的运动head。以视觉为中心的BEV模型通常联合优化实例的类别、位置和覆盖范围，FIERY引入了不确定性损失，以平衡分割、中心度、偏移和流量损失的权重。

与LiDAR和基于相机的BEV分割和运动的比较。一个明显的区别是LiDAR模型仅估计激光扫描可访问的网格，换句话说，基于LiDAR的方法对于未观察到的网格区域或动态对象的未观察部分没有完成能力。相反，基于相机的方法具有LSS中的概率深度等技术，可以推断观测背后的某些类型的遮挡几何体。MotionNet指出，尽管在闭集标签上进行了训练，MotionNet仍然能够预测未知标签的运动，这些标签都被归类为“其它”类。然而，基于摄像机的方法对定义良好的语义（如车辆和行人）进行严格分类，相机对开放世界语义的适应性仍然是一个悬而未决的问题。

2）联合3D目标检测和BEV分割：

联合3D目标检测和BEV分割是一种流行的组合，它在一个统一的框架中处理动态对象和静态道路布局的感知，这也是SSLAD2022车间挑战赛举办的赛道之一。给定共享的BEV特征表示，用于目标检测的常见预测头是在CenterPoint中引入的中心头和在可变形DETR中引入的DETR头，用于分割的常见头是简单的轻量级卷积头（例如）和BEVFormer中的SegFormer或Panoptic SegFormer，或者可以容易地扩展到更复杂的分割技术， BEVFormer的pipelines如图8所示。MEGVII在SSLAD2022多任务挑战中提出了排名第一的解决方案，他们提出了一个多模态多任务BEV模型作为基础。该模型在ONCE数据集上进行预处理，并在AutoScenes数据集上使用半监督标签校正和逐模块扩展移动平均（EMA）等技术进行微调。

3）更多任务的多任务：最近的研究将更多的主要感知任务放在基于BEV的多任务框架中。BEVerse显示了具有3D目标检测、道路布局分割和 occupancy flow预测的BEV特征的metaverse 。感知交互预测基于与在线提取的具有共享BEV特征的地图元素的交互进行端到端轨迹预测。UniAD是目标检测、跟踪、轨迹预测、地图分割、占用率和flow预测以及规划的综合集成，所有这些都在一个以视觉为中心的端到端框架中。

为了获得更稳定的性能，UniAD分两个阶段进行训练，第一阶段是跟踪和mapping，第二阶段是整个模型。统一的BEV特征表示和任务指定的预测头构成了一个有效的框架设计，该框架设计在工业应用中很流行。仍然存在一个问题，即共享的主干是否加强了各自的任务。BEV分割和运动联合研究报告了多任务的积极影响：更好的分割导致更好的运动预测。然而，大多数联合BEV检测和分割模型[89]、[113]、[114]报告了两个任务之间的对抗性，一个合理的解释是，这两项任务并不相关，因为它们需要不同高度、地面和地面上的特征。共享的BEV特征如何能够很好地概括以适应每项任务需要特定的特征图仍然是一个尚未探索的问题。

2）Label-efficient Grid Perception

随着自然语言处理（NLP）领域大规模预训练的巨大成功，自监督视觉学习受到了广泛的关注。在2D领域，基于对比学习、自监督模型正在快速发展，甚至能够超越完全监督的竞争对手。在3D领域，已经在LiDAR点云上进行了自监督预训练，自监督任务的核心问题是设计一个预定义的任务以实现更强的特征表示。

预定义的任务可以源于时间一致性、区分性约束学习和生成性学习。2D或3D网格用作自监督学习3D几何和运动的令人满意的中间表示。体素MAE定义了一个基于体素的任务，该任务屏蔽90%的非空体素，并旨在补全它们。这种预训练提高了下游3D目标检测的性能。类似地，BEV-MAE提出屏蔽BEV网格并将其恢复为预定义任务，MAELi区分了自由空间和闭塞空间，并利用一种新的掩蔽策略来适应LiDAR的固有球面投影。与其他基于MIM的预训练相比，MAELi显示出下游检测任务的性能显著提高。[127]还设置了一个新的预定义任务，该任务预测沿着从原点到反射点的每条射线采样的查询点的3D占用率。对于每条光线，靠近反射点的两个点（一个在外部为自由点，一个在表面内部为占用点）被采样为查询点。这个预定义的任务能够补全障碍物的表面，并且在3D检测和LiDAR分割任务中都有改进。

激光雷达和摄像机的相互监督对于学习几何和运动是有效的。PillerMotion计算LiDAR分支中的pillar运动，并通过自我姿态补偿光流。光流和pillar流经过交叉传感器调节以获得更好的结构一致性，PillerMotion的微调还改善了BEV网格的语义和运动。对于基于相机的3D视觉，自我监督的单目深度估计有着悠久的传统。MonoDepth2以新颖的视图合成方式从单眼视频中联合预测自我姿势和深度图。SurroundDepth使用交叉视图transformer（CVT）来捕捉不同相机之间的线索，并使用来自运动算子的结构的伪深度。NeRF似乎不是关注图像平面上的外观和深度，而是一种很有前途的方法，用于仅相机3D视觉的几何自监督。作为一种早期实践，SceneRF通过细化MLP辐射场来研究新的视图和深度合成，该辐射场可以推断源帧图像与一个序列中的其它帧的深度！

3）计算效率高的网格感知

1）内存高效3D网格mapping：内存是小分辨率大规模场景中3D占用mapping的主要瓶颈。有几种显式mapping表示，例如体素、网格、曲面、体素哈希、截断有符号距离场（TSDF）和欧几里德有符号距离域（ESDF）。vanilla 体素占用率网格映射按索引查询存储，这需要高内存负载，因此在映射方法中并不常见，网格存储有关障碍物的曲面信息。曲面由点和面片组成，其中包括半径和法向量。体素哈希是对vanilla体素方法的一种内存高效改进，它只在由相机测量的场景表面上分割体素，并以哈希表的形式将体素块存储在场景表面上，以方便体素块的查询，Octomap介绍了一种基于八叉树的高效概率3D mapping框架。Octomap迭代地将立方体空间划分为八个小立方体，大立方体成为父节点，小立方体成为子节点，可以不断向下扩展，直到达到最小分辨率，称为叶节点，Octomap使用概率描述来基于传感器数据轻松更新节点状态。

连续mapping算法是具有任意分辨率的计算和存储效率高的3D占用描述的另一种选择。高斯过程占用图（GPOM）使用改进的高斯过程作为非参数贝叶斯学习技术，引入地图上的点之间的依赖性。希尔伯特映射[130]将原始数据投影到希尔伯特空间，在那里训练逻辑回归分类器。BGKOctoMapL[131]扩展了传统的计数模型CSM，在使用核函数对其进行平滑后，可以考虑周围体素的观察。AKIMap[132]基于BGKOctoMap，改进点是核函数不再是基于径向的，自适应地改变方向并适应边界。DSP地图[133]将基于粒子的地图推广到连续空间，并构建适用于室内和室外应用的连续3D局部地图。广义地说，NeRF系列中的MLP结构也是3D几何的隐式连续映射，几乎不需要存储。

2）从PV到BEV的有效视图转换：Vanilla LSS需要在BEV空间上对齐概率深度特征的复杂体素计算，一些技术在体素网格上设计有效算子时优化了Vanilla LSS的计算成本。LSS利用cumsum track将截头体特征排序为其唯一的BEV ID，这在BEV网格上的排序过程中效率很低。BEVFusion提出了一种高效、精确而无近似的BEV pooling，通过预先计算网格索引，并通过在BEV网格上并行化的专用GPU内核减少间隔。BEVDepth提出了有效的体素池化，该池化为每个平截头体特征分配CUDA线程，并将每个像素点对应于该线程。GKT[134]利用几何先验来引导变换器聚焦于区分区域，并展开内核特征以生成BEV表示。为了快速推断，GKT在运行时为相机的校准无参数配置引入了查找表索引。Fast BEV[136]是第一个基于M2BEV[137]提出两种加速度设计的实时BEV算法，一种是预先计算BEV网格的投影索引，另一种是投影到相同的体素特征，GKT和BEVFusion的实现细节如图9和图10所示！

驾驶系统中的网格中心感知

以grid为中心的感知为自动驾驶的其它模块提供了丰富的感知信息，本节介绍了网格感知系统的典型工业设计，以及基于网格输入的几个相关感知领域和下游规划任务。

1）grid为中心的pipelines工业级设计

特斯拉是研究嵌入式FSD计算机上高性能、低延迟（10ms）的实时占用网络的先驱。特斯拉在CVPR2022自动驾驶研讨会（WAD）上首次介绍了占用网络，随后是2022年特斯拉人工智能日（Tesla AI Day 2022）上的整个以网格为中心的感知系统。占用网络的模型结构如图11所示，首先，该模型的主干使用RegNet和BiFPN从多个相机获取特征；然后，该模型通过具有3D空间位置的空间查询来执行2D图像特征的基于注意力的多相机融合。然后，该模型通过根据所提供的自我姿势对齐和聚集3D特征空间来执行时间融合。在融合跨时间层特征之后，解码器解码volume 和表面状态。体素网格和神经隐式表示的结合也是值得注意的，受NeRF启发，该模型以一个隐式可查询MLP解码器结束，该解码器接受任意坐标值x、y、z，以解码关于该空间位置的信息，即占用率、语义和flow。通过这种方式，占用网络能够实现3D占用mapping的任意分辨率。

2）相关感知任务

1）同时定位和建图：同时定位和建图（SLAM）技术对于移动机器人在未知环境中导航至关重要。SLAM与几何建模高度相关。在LiDAR SLAM领域，高阶CRF提出了一种增量构建的3D滚动OGM，用于有效地表示大规模场景。SUMA++直接使用RangeNet++进行LiDAR分割，语义ICP仅用于静止环境，基于语义的动态过滤器用于地图重建。在视觉SLAM字段中，ORB-SLAM存储带有点、线或平面的地图，将空间划分为离散网格通常用于密集和语义mapping算法。一个新的趋势是将神经场与SLAM相结合，具有两个优点：NeRF模型直接处理原始像素值，而无需特征提取；NeRF模型可以区分隐式和显式表示，从而实现3D几何的完全密集优化。NICE-SLAM和NeRFSLAM能够生成密集的无孔图，NeRF SLAM生成volumetric NeRF，其密集深度损失由深度的边缘协方差加权。

2）地图元素检测：检测地图元素是制作高清地图的关键步骤，传统的全局地图构建需要离线的全局SLAM，具有全局一致的点云和中心米级定位。近年来，一种新的方法是基于BEV分割和后处理技术的端到端在线学习方法，用于局部地图学习，然后将不同帧中的局部地图连接生成全局高清晰度地图。整个管道如图12所示。

通常，基于高清地图的应用程序（如定位或规划）需要矢量化地图元素。在HDMapNet中，可以通过对地图元素的BEV分割进行后处理来生成矢量化地图元素；然而，端到端方法最近获得了青睐。端到端管道包括特征提取第三节中介绍的机载激光雷达和相机以及基于transformer的头部，其将向量元素候选回归为查询并与BEV特征图中的值交互。STSU通过利用提取初始点估计的多段线RNN从结构化交通场景中提取道路拓扑，以形成中心线曲线。VectorMapNet直接预测一组稀疏的多段线图元，以表示HD地图的几何结构。InstaGram提出了一种具有CNN和图神经网络（GNN）的混合架构，该架构从BEV特征中提取顶点位置和隐式边缘图。GNN用于矢量化和连接HD地图的元素。如图13所示，MAPTR提出了一种分层查询嵌入方案，以编码用于地图元素学习的实例级和点级二分匹配。

3）以网格为中心的规划感知

占用网格通常传达场景理解中的风险或不确定性描述，因此它作为决策和规划模块的先决条件有着悠久的历史。在机器人领域，与以目标为中心的方法相比，网格中心的方法具有更高的冲突避免分辨率细节。最近的进展使网格级运动预测和端到端的规划学习成为可能。

1） OGM上基于图形搜索的规划器：运动规划旨在提供由一系列车辆状态组成的轨迹，而占用网格是状态空间和环境的自然离散表示。为了量化各种状态维度，可以堆叠额外的OGM通道。因此，离散网格单元之间的连接构成了一个图，该问题可以通过图搜索算法来解决，例如Dijkstra和。Junior[157]构建了一个包含位置、航向角和移动方向的四维网格，然后提出混合，以找到自由场景（如停车场和掉头）的最短路径。混合A*算法及其结果如图14所示。Hall等人扫描自我车辆前面OGM每行的扩展空间，以将节点连接到具有最低成本和偏差的可行轨迹中，这本质上是一种贪婪的图搜索策略！

2） OGM上采样轨迹的碰撞检测：考虑到在配置空间中搜索轨迹所需的大量时间，提出了基于采样的规划器来对一组候选轨迹进行采样，并评估其可行性和最优性，防撞约束强调可驾驶空间的意识。网格中心表示提供了比元素列表表示更具体的占用提示，这提高了碰撞检测的安全性。

3） RL规划者中的状态表示：强化学习（RL）算法得到了广泛的应用，它将规划问题表述为马尔可夫决策过程。状态是一个重要组件，必须对其进行精确建模，以加快收敛速度并提高性能。原始元素表示不能保持排列不变性和独立于车辆数量，而占用网格表示可以消除这些约束。Mukadam等人利用二进制占用网格的历史来表示外部环境信息，并将其集中于内部状态作为输入。许多技术[166]、[167]扩展了占用网格图，增加了其它特征的通道，如速度、航向、侧向位移等。如图16所示，整合了运动学参数，为RL网络提供了更多信息。与高分辨率网格表示不同，You等人[168]专注于具有车辆粗粒度大小的九个网格单元。

4）端到端规划：基于BEV特征的端到端计划通常是指对cost图的估计，该cost图指示样本模板轨迹上的风险分布。Neural Motion Planner对LiDAR点云和高清地图进行条件处理，提取LiDAR BEV特征，在BEV上构建成本体积，并以最小的损失对适当的轨迹进行评分。LSS将其仅摄像的端到端规划解释为“拍摄”，拍摄过程被概念化为轨迹集合的分类。MP3在规划任务的上下文中使用occupancy flow ，但不提供对其运动预测技术的质量和性能的直接分析。ST-P3是第一个在规划框架中考虑BEV运动以提高中间可解释性的框架，这是对过去的端到端规划方法没有考虑未来预测这一事实的回应。图17和图18显示了两个典型框架，即使用LiDAR的MP3规划和使用相机的ST-P3规划。

一些调研结论

本文全面回顾和分析了自动驾驶的公认和新兴的以网格为中心的感知，背景知识首先介绍了网格中心感知的问题定义、数据集和评估指标。对于最常用的BEV 2D网格，给出了各种传感器的特征表示，包括激光雷达、相机和雷达以及多模态融合。此外，还进一步推进了3D网格表示，其中包括基于LiDAR的语义场景完成和基于相机的显式重建和隐式表示。对于网格中心感知中时间模块的进展，回顾了历史信息的顺序聚合、短期运动预测和长期占用flow。随后，对以网格为中心的感知领域中的高效学习进行了深入研究，包括模型高效的多任务框架、标签高效的学习算法、内存高效的3D mapping结构和基于体素的运算器。最后，我们总结了当前网格中心感知的研究趋势和未来展望，希望本文将对自动驾驶汽车上的网格中心感知的未来发展和部署进行展望！

参考

[1] Grid-Centric Traffic Scenario Perception for Autonomous Driving: A Comprehensive Review

国内首个自动驾驶学习社区

近1000人的交流社区，和20+自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（分类、检测、分割、关键点、车道线、3D目标检测、多传感器融合、目标跟踪、光流估计、轨迹预测）、自动驾驶定位建图（SLAM、高精地图）、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频，期待交流！

【自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向；

添加汽车人助理微信邀请入群

备注：学校/公司+方向+昵称

自动驾驶之心

关注

1
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
Occupancy Network综述！Grid-Centric的感知方法（BEV/多任务/轨迹预测等）

点击下方卡片，关注“自动驾驶之心”公众号ADAS巨卷干货，即可获取点击进入→自动驾驶之心【BEV感知】技术交流群后台回复【OccupanyNetwork】获取Occupany Network相关论文干货资料！摘要网格中心感知是移动机器人感知和导航的关键领域。尽管如此，在自动驾驶中，网格中心感知不如目标中心感知更为普遍，因为自动驾驶车辆需要准确地感知高度动态、大规模的室外交通场景，并且以网格为中心...
复制链接

扫一扫