3D Gaussian杀入Occ!GaussianFormer:突破Occ瓶颈,显存开销直降五倍(清华&鉴智)...

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享清华&加州大学伯克利分校&鉴智的最新工作—GaussianFormer!文章作者也是自动驾驶之心的好朋友Yuanhui Huang 。3DGS实现Occ占用预测新方案,显存开销减少五倍!如果您有相关工作需要分享,请在文末联系我们!

也欢迎添加小助理微信AIDriver004,加入我们的技术交流群

>>点击进入→自动驾驶之心占用网络技术交流群

论文作者 | Yuanhui Huang等

编辑 | 自动驾驶之心

写在前面&笔者的个人理解

3D语义占用预测旨在获得周围场景的三维细粒度几何和语义,是提高以视觉为中心的自动驾驶鲁棒性的核心任务。大多数现有方法使用诸如体素之类的密集网格作为场景表示,这忽略了占用的稀疏性和目标尺度的多样性,从而导致资源分配的不平衡。为了解决这一问题,我们提出了一种以目标为中心的表示来描述具有稀疏3D语义高斯的3D场景,其中每个高斯表示一个灵活的感兴趣区域及其语义特征。我们通过注意力机制聚合来自图像的信息,并迭代地细化3D高斯的属性,包括位置、协方差和语义。然后提出了一种有效的高斯-体素splatting方法来生成3D占用预测,该方法仅聚合特定位置的相邻高斯。我们在广泛采用的nuScenes和KITTI-360数据集上进行了广泛的实验。实验结果表明,GaussianFormer的性能与最先进的方法相当,仅有17.8-24.8%的显存开销。

开源链接:https://github.com/huang-yh/GaussianFormer

简介

是否使用激光雷达进行3D感知一直是自动驾驶公司之间的核心争论。虽然以视觉为中心的系统具有共同的经济优势,但它们无法捕捉任意形状的障碍物,阻碍了驾驶的安全性和稳健性。3D语义占用预测方法的出现通过预测周围3D空间中每个体素的占用状态来解决这一问题,这有助于各种新出现的任务,如端到端自动驾驶、4D占用预测和自监督3D场景理解。

尽管应用前景广阔,但3D占用预测的密集输出空间对如何高效、有效地表示3D场景提出了巨大挑战。基于体素的方法为每个体素分配一个特征向量,以获得密集的表示来描述3D场景的细粒度结构。考虑到3D空间的稀疏性,它们采用从粗到细的上采样或体素滤波来提高效率。由于大多数体素空间未被占用,基于BEV的方法压缩高度维度,并使用鸟瞰图(BEV)作为场景表示,但它们通常需要后处理,如多尺度融合,以捕捉更精细的细节。TPVFormer将BEV推广到两个额外的平面,并与TPV实现了更好的性能-复杂性权衡。然而它们都是基于网格的方法,并且不可避免地由于空网格的冗余而变得乏味,从而导致下游任务更加复杂。使用基于网格的表示捕捉场景动力学也更加困难,因为在3D空间中移动的是目标而不是网格。

在本文中,我们提出了第一个用于三维语义占领预测的以目标为中心的表示。我们使用一组3D语义高斯来稀疏地描述3D场景。每个高斯表示一个灵活的感兴趣区域,由均值、协方差及其语义类别组成。我们提出了一种GaussianFormer模型来有效地从图像输入中获得3D语义Gaussians。我们随机初始化一组查询来实例化3D高斯,并采用交叉注意力机制来聚合来自多尺度图像特征的信息。我们迭代地细化3D高斯的属性,以实现更平滑的优化。为了有效地结合3D高斯之间的相互作用,我们将它们视为位于高斯均值的点云,并利用3D稀疏卷积来处理它们。然后,我们从更新的查询中解码3D语义高斯的属性作为场景表示。

受图像渲染中的3D高斯splatting方法的启发,我们设计了一个高效的高斯到体素splatting模块,该模块聚合相邻的高斯来生成特定3D位置的语义占用。所提出的3D高斯表示使用稀疏和自适应的特征集来描述3D场景,但由于高斯混合的通用逼近能力,仍然可以对细粒度结构进行建模。基于3D高斯表示,GaussianFormer进一步采用基于稀疏卷积和局部聚合的高斯到体素splatting来实现高效的3D语义占用预测,如图1所示。我们分别在nuScenes和KITTI-360数据集上进行了广泛的实验,用于从周围和单眼相机进行3D语义占用预测。高斯-前者的性能与现有最先进的方法相当,仅使用17.8-24.8%的显存。我们的定性可视化显示,GaussianFormer能够对场景产生整体和真实感知。

0e1c41966aafecd577f523c475698b6a.png

Proposed Approach

Object-centric 3D Scene Representation

9a96cdb9b88bd064ce308087c78c86a8.png

基于视觉的3D语义占领预测旨在以多视图相机图像为输入,预测每个体素网格的密集占领状态和语义。

自动驾驶场景包含各种规模的前景目标(如公交车和行人)和不同综合体的背景区域(如道路和植被)。密集体素表示忽略了这种多样性,并以相等的存储和计算资源处理每个3D位置,由于资源分配不合理,这往往导致难以处理的开销。平面表示,如BEV和TPV,通过首先将3D信息编码到2D特征图中以提高效率,然后从2D特征中恢复3D结构来实现3D感知。尽管平面表示对资源友好,但它们可能会导致细节丢失。基于网格的方法很难适应不同场景的感兴趣区域,从而导致表示和计算冗余。

为了解决这一问题,我们提出了一种用于3D语义占用预测的以目标为中心的3D表示,其中每个单元描述一个感兴趣的区域,而不是固定的网格,如图2所示。我们用许多3D语义高斯表示了一个自动驾驶场景,其中每一个都实例化了以均值、协方差和语义logits为特征的语义高斯分布。3D位置的占用预测可以通过将在该位置评估的语义高斯分布的值相加来计算。

a9abf954a254551ebcc93b04ce4881c3.png

那么,点p处的占用预测结果可以公式化为各个高斯人对位置p的贡献之和:

d7aee409727f2574ec660706a4cddf20.png

与体素表示相比,均值和协方差特性允许3D高斯表示根据目标尺度和区域复杂度自适应地分配计算和存储资源。因此,我们需要很少的3D高斯来对场景进行建模,以获得更好的效率,同时保持表现力。同时,3D高斯表示以3D高斯为基本单位,从而避免了平面表示中因降维而导致的潜在细节损失。此外,每个3D高斯都具有明确的语义含义,使得从场景表示到占用预测的转换比其他表示中的转换容易得多,其他表示通常涉及从高维特征解码每个体素语义。

GaussianFormer: Image to Gaussians

基于场景的3D语义高斯表示,我们进一步提出了一个GaussianFormer模型,以从多视图图像中学习有意义的3D Gaussian。整个管道如图3所示。我们首先将3D高斯的性质及其相应的高维查询初始化为可学习向量。然后,我们迭代地细化GaussianFormer每个block的高斯性质。每个块由一个自编码模块、一个图像交叉注意力模块和一个细化模块组成,该自编码模块用于实现3D高斯之间的交互,该图像交叉注意力模块用于聚合视觉信息,该细化模块用于校正3D高斯的特性。

98f29b4a9487043b66406751f9936758.png

Gaussian Properties and Queries:我们介绍了GaussianFormer中的两组特征。高斯属性是物理属性,它们实际上是模型的学习目标。另一方面,高斯查询是在自编码和图像交叉关注模块中隐式编码3D信息的高维特征向量,并在细化模块中为校正提供指导。我们将高斯性质初始化为可学习向量,如图3中的初始性质所示。

Self-encoding Module:出于效率考虑,具有体素或平面表示的方法通常实现具有可变形注意力的自编码模块,这对于非结构化的3D高斯表示来说不太受支持。相反,我们利用3D稀疏卷积来允许3D高斯之间的交互,共享与可变形注意力相同的线性计算复杂性。具体来说,我们将每个高斯视为位于其均值m的点,对生成的点云进行体素化(如图3中的Voxeization所示),并在体素网格上应用稀疏卷积。由于3D高斯的数量P远小于X×Y×Z,因此稀疏卷积可以有效地利用高斯的稀疏性。

Image Cross-attention Module:图像交叉注意力模块(ICA)旨在为我们基于视觉的方法从图像中提取视觉信息。为了详细说明,对于3D高斯G,我们首先通过用偏移Δm置换平均值m来生成一组3D参考点。我们根据高斯的协方差来计算偏移量,以反映其分布的形状。然后,我们用外部T和内部K将3D参考点投影到图像特征图上。最后,我们用检索到的图像特征的加权和更新高斯查询Q:

b8115c64016fccd412ee74dcb07cdd78.png

Refinement Module:我们使用细化模块在来自相应高斯查询的指导下校正高斯属性,这些高斯查询在先前的自编码和图像交叉注意力模块中聚集了足够的3D信息。具体来说,我们从物体检测中的DETR中获得了灵感。对于3D高斯,我们首先用多层感知器(MLP)对高斯查询Q的中间属性进行解码。当用中间性质精化旧性质时,我们将中间平均值视为残差,并将其与旧平均值m相加,同时我们直接用其他中间性质替换相应的旧性质:

e0460679cafa1c6c0d37b5ddb62ef776.png

我们对具有残差连接的高斯平均值进行了细化,以保持它们通过GaussianFormer的block的相干性。其他属性的直接替换是由于我们在协方差和语义logits上应用的sigmoid和softmax激活对消失梯度的关注。

Gaussian-to-Voxel Splatting

由于高斯混合的通用逼近能力,3D语义高斯可以有效地表示3D场景,因此可以直接处理以执行下游任务,如运动规划和控制。具体来说,为了实现3D语义占领预测,我们设计了一个高效的高斯-体素splatting模块,仅使用局部聚合操作即可将3D高斯表示有效地转换为3D语义占领预测。

c2a5a2d2b50e1deeddb40170dbaa22c7.png

如图4所示,我们首先根据3D高斯的平均值m将其嵌入到大小为X×Y×Z的目标体素网格中。对于每个3D高斯,我们根据其尺度属性s计算其邻域的半径。我们将高斯的索引和邻域内每个体素的索引作为元组(g,v)附加到列表中。然后,我们根据体素的索引对列表进行排序,以导出每个体素应该关注的3D高斯的索引:

35ecc107b4d9938896a795b619cdebe9.png

可以以端到端的方式高效地训练整个GaussianFormer模型。对于训练,我们使用TPVFormer之后的交叉熵损失Lce和lovasz softmax损失。为了以迭代的方式细化高斯属性,我们对每个细化模块的输出进行监督。

实验结果

1813b984a205823de30dff41c392d30a.png 52a90fe764a71e82faa5372e3e0efbfa.png 8989fad1e5ac11eca6b54c3335d6fc60.png d5991b8168af2c9e8b60af9a8cdaacaf.png

可视化结果。我们在图5中提供了定性可视化结果。我们的GaussianFormer可以对场景产生整体和现实的感知。具体地,3D高斯调整它们的协方差矩阵,以捕捉物体形状的精细细节,例如道路和墙壁表面(例如,第三行)的平坦形状的高斯。此外,与路面(例如,第一行)相比,有车辆和行人的区域的密度更高,这证明了3D高斯聚类通过迭代细化围绕前景目标,以实现资源的合理分配。此外,我们的GaussianFormer甚至成功地预测了不在地面实况中并且在图像中几乎看不见的目标,例如左前输入图像中的卡车和第四行中的3D可视化的右上角。

2070bebbe4c8d7a8c590ed5809659231.png ddd64043c553b54d98b7679e8dddbc22.png

Conclusion and Discussions

在本文中,我们提出了一种高效的以目标为中心的3D高斯表示用于3D语义占领预测,以更好地利用占领的稀疏性和目标尺度的多样性。我们用稀疏的3D高斯描述驾驶场景,每个高斯都以其位置、协方差和语义为特征,并表示一个灵活的兴趣区域。基于3D高斯表示,我们设计了GaussianFormer,通过注意力机制和迭代细化,从输入图像中有效地学习三维高斯。为了有效地从3D高斯生成体素化的占用预测,我们提出了一种有效的高斯到体素电镀方法,该方法只聚合每个体素的相邻高斯。GaussianFormer在nuScenes和KITTI-360数据集上实现了与最先进的方法相当的性能,并显著降低了75%以上的显存开销。我们的消融研究表明,GaussianFormer的性能与Gaussian的数量成正比。此外,可视化实现了3D高斯的功能,可以捕捉物体形状的细节,并合理分配计算和存储资源。

局限性:尽管显存开销要低得多,但GaussianFormer的性能仍然不如最先进的方法。这可能是由于3D语义高斯表示的不准确,或者只是因为我们没有进行太多的超参数调整而导致超参数的错误选择。GaussianFormer还需要大量的Gaussian才能达到满意的表现。这可能是因为当前的3D语义高斯包括空作为一个类别,因此仍然可能是多余的。只对实体目标建模以进一步提高性能和速度是很有趣的。

参考

[1] GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

aa1de3e00c71b9c6d540ef1796e95f93.png 网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

bec62aa7bcfce250b8a458aeb6d37a88.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

3e0431906f6ec93f08189d81c8790448.jpeg

④【自动驾驶之心】全平台矩阵

90ad96aa88fc6ae6db3b3838223f7716.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值