GSD-Occ：实时占用预测最新开源，速度比SOTA快3倍，mIoU提高1.9！

最新推荐文章于 2024-10-09 06:57:48 发布

深蓝学院

最新推荐文章于 2024-10-09 06:57:48 发布

阅读量754

点赞数 17

文章标签： BEV感知自动驾驶

本文链接：https://blog.csdn.net/soaring_casia/article/details/140825049

版权

论文标题：

Real-Time 3D Occupancy Prediction via Geometric-Semantic Disentanglement

论文作者：

Yulin He, Wei Chen, Tianci Xun, Yusong Tan

导读：

本文提出了GSD-Occ，一种创新的实时3D占用预测方法，通过几何-语义双分支网络和解耦学习策略，实现了高效率和高精度的占用预测。实验表明，GSD-Occ在保持20 FPS处理速度的同时，达到了39.4%的mIoU，超越了现有技术，并将代码开源以推动进一步研究。©️【深蓝AI】编译

1. 问题引入

占用预测在自动驾驶中至关重要，因为它提供了精细的几何感知和通用的对象识别能力。这些能力使得自动驾驶系统能够准确地感知和理解周围环境，从而进行安全有效的路径规划和决策。然而，现有的方法通常计算成本高，难以满足自动驾驶对实时性和效率的严格要求。为了应对这一挑战，作者首先评估了大多数公开可用方法的速度和内存使用情况，旨在将关注点从单纯追求准确性转移到提高计算效率和资源利用率方面。

▲图1｜Occ3D-nuScenes基准测试中各占用预测方法的推理速度（FPS）和准确率（mIoU）©️【深蓝AI】编译

2. 方案提出

实现快速且准确性能的关键在于几何和语义之间的强耦合，为此，作者提出了一种具有混合BEV-体素表示的几何-语义双分支网络（GSDBN）。在BEV分支中，引入了一个BEV级别的时序融合模块和一个U-Net编码器以提取密集的语义特征。在体素分支中，提出了一种大核重新参数化的3D卷积，以细化稀疏的3D几何并减少计算。此外，作者提出了一种新的BEV-体素提升模块，将BEV特征投射到体素空间，以实现两个分支的特征融合。

此外，作者还提出了一种几何-语义解耦学习（GSDL）策略。该策略首先使用准确的几何真值深度来学习语义，然后逐步混合预测深度以使模型适应预测的几何。实验表明，本方法在Occ3D-nuScenes基准测试中表现出色，以39.4 mIoU和20.0 FPS的成绩超过了CVPR2023 3D占用预测挑战赛的冠军FB-OCC，速度提高了约3倍，mIoU提高了1.9。

在这里插入图片描述
▲图2｜几何语义耦合问题示意图：(a) 不准确的深度预测会导致2D到3D特征投影的错误，需要后续网络进行细化和纠正；(b) 展示了预测深度和真实深度之间的性能差距，展现了解决该问题的重要性©️【深蓝AI】编译

3. 方法详析

■3.1 问题表述

给定传感器数据（例如相机图像、点云等）和目标场景的历史信息，我们的目标是生成高质量的3D占用图。这些占用图可以用于多种应用，例如自动驾驶、机器人路径规划等。

在这里插入图片描述
▲图3｜GSD-Occ的整体架构概览©️【深蓝AI】编译

■3.2 整体框架

几何-语义解耦占用预测器（GSD-Occ）的流程图如图3所示。该方法包括以下几个主要部分：

●图像编码器： 用于提取图像特征。具体来说，给定T时刻的一组环视相机图像，本文采用预训练的主干网络（如ResNet-50）来提取图像特征，并使用FPN进一步处理。

●2D到3D视图转换： 该模块将2D图像特征转换为体素表示。由于实时模型的学习能力有限，本文采用了一个显式视图转换模块，并通过深度监督进行训练。具体过程是，首先将图像特征输入到深度网络（DepthNet），生成预测的深度分布。然后，利用外积操作将图像特征和深度分布结合，得到伪点云特征。最后，通过体素池化操作获得体素特征，并进行2倍下采样以减少计算复杂度。

●几何-语义双分支网络（见3.3）： 该网络通过几何分支和语义分支高效地保持几何完整性并提取丰富的语义信息。

●几何-语义解耦学习策略（见3.4）： 该策略进一步增强了几何细化和语义学习的能力。

■3.3 几何-语义双分支网络

为了实现实时的3D占用预测，作者提出了一种几何-语义双分支网络（GSDBN）。该网络结合了鸟瞰图（BEV）表示和体素表示，既保证了计算效率又保持了几何完整性。GSDBN包含两个主要分支：语义BEV分支和几何体素分支。

◆语义BEV分支

语义BEV分支旨在从传感器数据中提取语义信息，并将其映射到鸟瞰图表示中。这一过程包含以下步骤：

●特征提取： 使用ResNet-50作为特征提取器，从输入图像中提取高层次特征。

●特征转换： 将提取的特征映射到鸟瞰图表示中，生成语义鸟瞰图。

◆几何体素分支

几何体素分支专注于从传感器数据中提取几何信息，并将其表示为体素。这一过程包括以下步骤：

●体素化： 将传感器数据转换为体素表示。

●几何编码： 使用大卷积核的3D卷积对体素进行编码，捕获细粒度的几何信息。