渲染速度提高5倍!GaussianOcc:没有标注也能做Occ(东京大学)

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享一篇Gaussian+Occupancy相关的工作!如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心占用网络技术交流群

编辑 | 自动驾驶之心

写在前面

GaussianOcc是一种系统方法,它研究了Gaussian Splatting的两种用途,用于在环视图中实现完全自监督且高效的3D占用率估计。首先,传统的自监督3D占用率估计方法在训练过程中仍然需要来自传感器的真实6D姿态。为了克服这一限制,这里提出了用于投影的Gaussian Splatting(GSP)模块,以通过相邻视图投影为完全自监督训练提供准确的尺度信息。此外,现有方法依赖于volume渲染,利用2D信号(深度图、语义图)进行最终的3D体素表示学习,这既耗时又低效。这里提出了来自体素空间的Gaussian Splatting(GSV),以利用Gaussian Splatting的快速渲染特性。

因此,所提出的GaussianOcc方法能够以具有竞争力的性能实现完全自监督(无需真实姿态)的3D占用率估计,同时计算成本较低(训练速度提高2.7倍,渲染速度提高5倍)。相关代码将发布在:https://github.com/GANWANSHUI/GaussianOcc.git。

领域背景一览

近年来,无论是以视觉为中心还是以网格为中心的感知方法,在自动驾驶行业和学术界都受到了广泛关注。其中,环视3D占用率估计已成为一项核心感知任务,并有望成为鸟瞰图(BEV)方法的有前途的替代方案。为了促进3D占用率估计,已经开发了几种用于监督训练的基准,但这些基准在3D标注方面需要付出巨大努力。为了减轻标注负担,已经提出了基于volume渲染的自监督和弱监督学习方法。volume渲染允许使用2D监督信号(如2D语义图和深度图)进行3D表示学习,从而消除了训练过程中需要大量3D标注的需要。

现有方法通过volume渲染实现自监督学习,其中2D语义图监督来源于开放词汇集的语义分割,而深度图监督则来自自监督深度估计。然而,这些方法面临两个重大限制。首先,volume渲染是在现实世界尺度上进行的,这需要真实6D姿态的可用性来计算连续图像之间的多视图光度损失。其次,volume渲染的低效性是一个挑战,这与新视图合成任务中的情况相同,因为需要密集的采样操作。这些限制阻碍了更通用且高效的自监督3D占用率估计范式的发展。

为了解决上述限制,这里探索了一种使用Gaussian Splatting的完全自监督且高效的3D占用率估计方法。引入了Gaussian Splatting来进行跨视图splatting,其中渲染的图像构建了一个跨视图损失,该损失在与6D姿态网络联合训练时提供尺度信息,这消除了训练过程中对真实6D姿态的需求。为了提高渲染效率,摒弃了传统volume渲染中所需的密集采样。相反,这里提出了直接从3D体素空间进行Gaussian Splatting。在这种方法中,体素网格中的每个顶点都被视为一个3D高斯函数,直接在体素空间内优化这些高斯函数的属性:如语义特征和不透明度。通过这种新颖的方法,提出的方法GaussianOcc朝着完全自监督且高效的3D占用率估计迈进了一步,如图1所示。

64923ed5a5e34f973b55bb62429dea61.png

主要贡献总结如下:

• 引入了首个完全自监督的高效环视3D占用率估计方法,该方法以Gaussian Splatting的探索为特点。

• 提出了用于跨视图投影的Gaussian Splatting,该方法可以提供尺度信息,从而消除训练过程中对真实6D姿态的需求。

• 提出了从体素空间进行Gaussian Splatting的方法,与volume渲染相比,该方法在训练速度上快了2.7倍,在渲染速度上快了5倍,同时实现了具有竞争力的性能。

相关工作介绍

近年来,环视3D占用率估计获得了广泛关注,并基于Nuscenes数据集建立了多个基准。除了提出的先进架构外,另一个研究趋势是利用volume渲染进行带有二维监督的三维监督。SimpleOcc率先使用volume渲染进行3D占用率估计,探索了监督学习和自监督学习。RenderOcc扩展了用于渲染的语义信息。OccNeRF和SelfOcc采用了类似的方法,使用二维开放词汇语义模型生成语义图进行监督。然而,由于volume渲染过程是在真实世界尺度上进行的,这些自监督方法需要来自传感器的真实6D姿态来提供训练所需的真实世界尺度。相比之下,我们正在探索一种利用相邻相机重叠区域来学习真实世界尺度的解决方案,从而消除了对真实6D姿态的需求。

3D Gaussian Splatting已成为一种流行的方法,用于使用良好构图的图像对3D和4D场景进行建模,与神经辐射场中的volume渲染相比,该方法具有快速渲染的特性。在驾驶场景的背景下,一系列研究已经集中在特定场景的重建上。然而,我们的工作研究了在广义设置中Gaussian Splatting的功能。在这种设置中,现有方法通常通过学习的2D高斯属性的反投影来构建3D高斯。我们也采用了这种反投影方法,但独特之处在于,我们的方法通过Gaussian Splatting投影从相邻视图中构建跨视图信息来学习尺度信息。

此外,最近的两项工作GaussianFormer和GaussianBeV与本文的工作密切相关,因为它们都关注于3D占用率估计和BEV(鸟瞰图)预测。然而,我们的探索有所不同,我们专注于Gaussian Splatting可以为占用率估计带来的两个新特性:尺度感知训练和更快的渲染。

主要方法

这里研究了使用3D Gaussian Splatting进行完全自监督的3D占用率估计。3D Gaussian Splatting(3D-GS)是一种使用点基元对静态3D场景进行建模的技术。每个点都表示为一个由3D协方差矩阵Σ和均值µ表征的缩放高斯分布。点X的高斯分布由以下公式给出:

329e9684962ea416d26b1b36892404f4.png

具体而言,为了通过梯度下降法实现有效的优化,协方差矩阵Σ被分解为缩放矩阵S和旋转矩阵R,如下所示:

2a08988889ad944e5a8e7cf125485c78.png

将高斯从3D空间投影到2D图像平面涉及视图变换W和投影变换的仿射近似的雅可比矩阵J。二维协方差矩阵Σ'计算如下:

d21de0452ae7e87151df85f9150a9b85.png

随后,应用了类似于NeRF中使用的alpha混合渲染技术。这可以表示为:

8314e0268644871ff8465e0961265399.png

在这里,表示每个点的颜色,密度α由具有协方差Σ'的二维高斯与每个点学习的不透明度相乘得到。颜色使用球谐函数(SH)系数定义。

总结来说,基本的3D Gaussian Splatting方法用以下属性来描述每个高斯点:(1) 一个3D位置,(2) 由球谐函数(SH)系数定义的颜色(其中k表示SH基底的维数),(3) 由四元数表示的旋转,(4) 缩放因子,(5) 不透明度α ∈ [0, 1]。

1)GaussianOcc全览

GaussianOcc的概述如图2所示。主要贡献在于引入了跨视图Gaussian Splatting以实现尺度感知训练,以及体素网格Gaussian Splatting以实现更快的渲染。与用于特定场景3D重建的原始Gaussian Splatting不同,这里探索了一种设置,其中高斯属性在2D和3D网格中均得到良好对齐。这种方法将3D场景在2D图像平面上建模为深度图,在3D网格空间中建模为体素(占用)格式。

407d5fb8e3a04b59dee65aa699154b28.png

2)通过Gaussian Splatting进行尺度感知训练

空间相机支架的尺度:与之前的工作类似,尺度信息来自周围的相机rig。可以通过利用相机的外部矩阵来获得现实世界中的尺度,即在两个相邻视图的重叠区域使用空间光度损失,即将 wrap到:

2159d5bfe4ab8584f093d4716914473a.png

其中 , 是第 i个相机的内外矩阵, 是第 i个相机的预测深度图, 是wrap过程中的对应像素。扭曲操作是通过与对应的  进行双线性插值来实现的。然而,由于这样的小重叠区域中的弱监督信号,映射  容易超出图像边界。我们的实践也验证了这一局限性,为了提供更强的监督信号,一些工作从SFM来提取稀疏深度信息以进行尺度感知训练,但这既耗时又不直接。不同的是,这里提出使用Gaussian Splatting进行尺度感知投影,以实现跨视图立体约束。

用于投影的Gaussian Splatting(GSP):如图2所示,使用深度网络来预测二维网格空间中的高斯属性,包括深度图、尺度图和旋转图。对于每个相邻视图,首先计算重叠区域的掩码,然后mask这些重叠区域的一侧。由于另一侧重叠区域的存在,未投影的三维场景保持完整,这对于在实验部分所指示的提供尺度训练至关重要。然后对相邻视图进行splatting渲染以获得渲染图像。如果深度图被准确学习,那么渲染图像应该类似于原始图像,从而为整个流程提供必要的尺度信息。

获取重叠掩码的过程如图3所示。重叠掩码的获取基于volume渲染,在一个视图的射线上密集采样点,如果一个以上的采样3D点落在相邻视图内,则认为该像素是重叠区域的一部分。请注意,在DDAD数据集中,我们排除了自遮挡区域(如车身部分)。最后,对掩码应用OpenCV库中的腐蚀操作以进行净化。

bd1fef6d1008d31a56acd402827779b7.png

3)Fast rendering by Gaussian Splatting

volume渲染中的低效性能:对于2D监督(语义图和深度图),先前的方法采用了基于密集采样的volume渲染。虽然用于建模3D场景的最终3D体素表示比原始的隐式表示(MLPs)要快得多,但它仍然耗时,尤其是在融入语义图渲染时。例如,在OccNeRF中,分辨率为180×320的采样点数量为108,735,066。然而,目标优化点对应于3D体素网格中的顶点,总数为320 × 320 × 24 = 2,457,600。这种密集采样点的冗余有助于体渲染的优化,但效率极低。

来自体素的Gaussian Splatting(GSV):如上所述,目标优化点是3D体素网格中的顶点,这促使我们考虑直接优化这些顶点。因此,本文研究了使用Gaussian Splatting来进一步加速渲染过程。对于3D体素网格中的每个顶点,获得Gaussian Splatting所需的属性,如3D位置、语义信息和不透明度。因此提出将每个顶点视为3D高斯分布。由于这些顶点排列在3D体素空间中,可以通过优化相关的高斯属性来建模3D场景。

4)损失函数

a17736ba9930cbb0dbec6f3162c82bbf.png

实验结果

nuScenes数据集:使用nuScenes数据集进行3D占用率估计和深度估计。对于3D占用率估计,利用Occ3DnuScenes中的标注,该标注包含600个训练场景和150个评估场景。每个样本的感知范围为[-40m, -40m, -1m, 40m, 40m, 5.4m],体素大小为0.4m。为了公平比较,使用OccNeRF提供的2D语义图。使用mIoU指标来衡量3D占用率估计的性能。对于深度估计,将感知范围设置为[-80m, -80m, -1m, 80m, 80m, 6m],同时将真实值限制在0.1m到80m的范围内进行评估,这与OccNeRF和SurroundDepth保持一致。使用误差指标(Abs Rel、Sq Rel、RMSE、RMSE log)和阈值精度指标(δ)来评估深度图。

DDAD:使用DDAD数据集进行3D占用率估计和深度估计。由于缺少真实标签,仅在全自监督3D占用率估计设置下展示定性结果。遵循在nuScenes数据集上使用的程序,根据OccNeRF流程获得2D语义标签。对于深度估计,也将感知范围设置为[-80m, -80m, -1m, 80m, 80m, 6m],但将真实值限制在0.1m到200m的范围内进行评估,这与SurroundDepth保持一致。

1)实施细节

网络细节:对于U-Net架构,采用基于Swin Transformer的New-CRFs作为深度估计网络。6D姿态网络与SurroundDepth中使用的相同。对于从2D到3D的提升,遵循SimpleOcc中使用的方法。在深度估计基准测试中,使用SimpleOcc提出的网络,其最终输出大小为256×256×16。在Gaussian Splatting设置中,为了提高性能,将最终输出进一步上采样到512×512×32,这仅需要最小的额外计算成本。对于占用率估计,使用与OccNeRF相同的网络以确保公平比较。

训练细节:为全自监督3D占用率估计提出了一个两阶段训练过程。在第一阶段,联合训练深度估计网络和6D姿态网络。在第二阶段,训练3D占用率网络,但不优化6D姿态网络。在第一阶段,在nuScenes数据集上训练模型8个周期,在DDAD数据集上训练12个周期。在第二阶段,在nuScenes和DDAD数据集上分别训练模型12个周期。

2)结果一览

b67b2abd61ed2c8021da71b4dfa74d9b.png 8e33f18c66ea60a1aed23511716798f8.png 2726371fd7eb355c1463271a0fcd57a0.png 3195c49f8ca16ce3338c7200d51b157c.png fb41e9721d756e3f33470543d0a9b2fc.png 67d28ed949f6812ebb0f3b30a0fb1a39.png c0573aba3945868458abd7bdad626284.png

参考

[1] GaussianOcc: Fully Self-supervised and Efficient 3D Occupancy Estimation with Gaussian Splatting.

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!重磅,自动驾驶之心科研论文辅导来啦,申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向,欢迎联系我们!

77d60c861b1ce019b45900a3c7d07817.jpeg

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

0192bcc4000fe3cbd6d12a46cd5f3e45.png 网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

578ff5879ed828903fcd5e2784eee211.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

d36dff0a84d4ddba43bde77846ecdd26.jpeg

④【自动驾驶之心】全平台矩阵

bef7821586d82d14c325093ff422fb41.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值