UC伯克利最新！S3Gaussian：全球首个开源自动驾驶3DGS工作

最新推荐文章于 2024-07-12 16:30:00 发布

自动驾驶之心

最新推荐文章于 2024-07-12 16:30:00 发布

阅读量336

点赞数 2

文章标签：自动驾驶 3d 人工智能机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247609363&idx=3&sn=e7135e7b3f7b040095905422e154240c&chksm=cfa98a77a8b54f0900b25419f5ab627d4fbce6aba3357eeb3691c5ca64a51bedbc2f66b3df97&scene=126&sessionid=0

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『3DGS』技术交流群

论文作者 | Nan Huang

编辑 | 自动驾驶之心

写在前面&为什么要提出？

街道场景的逼真3D重建是开发自动驾驶现实世界模拟器的一项关键技术。尽管神经辐射场（NeRF）在驾驶场景中具有有效性，但由于3D高斯Splatting（3DGS）的速度更快且表示更明确，它成为了一个有前景的方向。然而，大多数现有的street 3DGS方法需要跟踪的3D车辆bounding box来分解静态和动态元素以实现有效重建，这限制了它们在户外场景和开集中的应用。为了在没有昂贵标注的情况下实现高效的3D场景重建，这里提出了一种自监督街道高斯（S3Gaussian）方法，用于从4D一致性中分解动态和静态元素。使用3D高斯来表示每个场景以保持其明确性，并进一步用时空场网络来紧凑地建模4D动态。在Waymo-Open数据集上进行了广泛的实验，以评估提出的方法有效性。S3Gaussian展示了分解静态和动态场景的能力，并在不使用3D注释的情况下取得了最佳性能。

这也是全球首个开源的自动驾驶场景3D GS工作，代码：https://github.com/nnanhuang/S3Gaussian/。

（大拇指往上滑，点击最上方的卡片关注我，整个操作只会花你 1.328 秒，然后带走未来、所有、免费的干货，万一有内容对您有帮助呢～）

当前领域背景一览

近年来，自动驾驶取得了显著进展，并在其pipeline的每个阶段都开发了各种技术，包括感知、预测和规划。随着端到端自动驾驶的出现，它直接从传感器输入输出控制信号，自动驾驶系统的开环评估变得不再有效，因此迫切需要改进。作为一种有前景的解决方案，真实世界的闭环评估需要用于可控视图的传感器输入，这推动了高质量场景重建方法的发展。

尽管在小规模场景的光照真实重建方面做出了许多努力，但驾驶场景的大规模和高动态特性对3D场景的有效建模提出了新的挑战。为了适应这些，大多数现有工作采用跟踪的3D bounding box来分解静态和动态元素。然而，3D轨迹的昂贵标注限制了它们从野外数据进行3D建模的应用。EmerNerf通过同时学习场景流并使用它来连接4D NeRF场中的对应点进行多帧重建，解决了这个问题，实现了无需明确边界框的静态和动态目标之间的分解。然而，由于低延迟和明确表示的需求，3D驾驶场景建模正经历着从基于NeRF的重建到3D高斯Splatting的转变。虽然EmerNerf展示了有前景的结果，但它只能用于基于NeRF的场景建模，其训练和渲染需要很长时间。如何在没有明确的3D监督的情况下实现城市场景的3D高斯Splatting仍然不明确。

为了解决上述问题，我们提出了一个名为S3Gaussian的自监督街道高斯方法，为动态街道场景提供了一个不需要3D监督的稳健解决方案。为了处理驾驶场景中固有的复杂时空变形，S3Gaussian引入了一个前沿的时空场来进行自监督的场景分解。这个时空场结合了一个多分辨率Hexplane结构编码器和一个紧凑的多头高斯解码器。Hexplane编码器被设计用来将4D输入网格分解为多分辨率、可学习的特征平面，有效地从动态街道场景中聚合时空信息。在优化过程中，多分辨率Hexplane结构编码器有效地分离了整个场景，为每个场景实现了规范表示。动态相关特征存储在时空平面内，而静态相关特征则保留在仅空间平面中。利用密集编码的特征，多头高斯解码器从规范表示中计算出变形偏移量。然后，这些变形被添加到原始3D高斯的属性中，包括位置和球谐函数，从而允许根据时间序列动态改变场景表示，主要贡献总结如下：

S3Gaussian是第一个能够在没有额外标注数据的情况下，成功分解街道场景中动态和静态3D高斯的方法。
为了模拟驾驶场景中复杂的变化，引入了一个高效的空间-时间分解网络，以自动捕获3D高斯体的变形。
在具有挑战性的数据集上进行了全面的实验，包括NOTR和Waymo。结果表明，S3Gaussian在场景重建和新视图合成任务上达到了最先进的渲染质量。

3D高斯体Splatting技术。最近，3D高斯Splatting（3DGS）技术的突破彻底改变了场景建模和渲染。利用显式3D高斯体的强大功能，3DGS在新视图合成和实时渲染方面取得了最佳效果，同时相比传统的表示方法（如网格或体素）显著降低了参数复杂性。这项技术无缝集成了基于点的渲染和splatting的原理，通过基于splatting的栅格化促进了快速渲染和可微分计算。

自动驾驶模拟的街道场景重建。已经投入了大量努力来从真实场景中捕获的自动驾驶数据中重建场景。现有的自动驾驶模拟引擎，如CARLA 或 AirSim，因创建虚拟环境需要昂贵的手动标注以及生成数据的非现实性而受到限制。包括NeRF和3DGS 在内的新视图合成（NVS）技术的迅速发展，在自动驾驶领域引起了广泛关注。许多研究探讨了这些方法在重建街道场景中的应用。Block-NeRF 和Mega-NeRF 提出了将场景分割成不同的块进行单独建模。Urban Radiance Field 通过结合LiDAR的几何信息来增强NeRF的训练，而DNMP 则利用预训练的可变形网格原语来表示场景。Streetsurf 将场景分为近景、远景和天空类别，为城市街道表面提供了卓越的重建结果。为了建模动态城市场景，NSG 将场景表示为神经图，而MARS 则使用单独的网络来模拟背景和车辆，建立了一个实例感知的模拟框架。随着3DGS 的引入，DrivingGaussian 提出了复合动态高斯图和增量静态高斯图，而StreetGaussian 则优化了动态高斯体的跟踪姿态，并引入了4D球面谐波来处理跨帧变化的车辆外观。

上述方法不仅存在训练时间长、渲染速度慢的问题，而且无法自动区分动态和静态场景。因此，我们提出了S 3Gaussian，该方法能够在没有额外标注的情况下，以自监督的方式区分动态和静态场景，并对动态城市街道场景进行高保真度和实时神经渲染，这对于自动驾驶模拟至关重要。

S3Gaussian

重建任务的目标是从移动车辆捕获的一系列图像中学习街道动态环境的时空表示。然而，由于观察视角数量有限以及为动态和静态目标获取真实标注的高成本，这里旨在以完全自监督的方式学习静态和动态组件的场景分解，避免了对包括动态目标的边界框、场景分解的分割掩码以及运动感知的光流等额外标注的依赖。

1）4D 高斯表示

如图2所示，我们的场景表示包括3D高斯分布G和一个时空场网络F。为了描绘静态场景，3D高斯分布由协方差矩阵Σ和位置向量X表示，这被称为几何属性。为了稳定的优化，每个协方差矩阵进一步分解为缩放矩阵S和旋转矩阵R：

除了位置和协方差矩阵外，每个高斯分布还被分配了一个不透明度值α ∈ R和颜色，这些颜色由球面谐波（SH）系数定义，其中k表示SH函数的度数。时空场网络以每个高斯分布的位置X和当前时间步t作为输入，生成时空特征f。在解码这些特征后，网络可以预测每个点相对于规范空间的位移△G，同时通过语义特征解码器获得语义信息。

这里利用一个可微分的3D高斯splatting渲染器R，将变形后的3D高斯分布G' = △G + G投影到2D。在这里，相机坐标系中的协方差矩阵Σ'为：

其中J是透视投影的雅可比矩阵，W是视图变换矩阵。每个像素的颜色是通过N个有序点使用α混合来计算的：

在这里，α和分别表示一个点的不透明度和颜色，这些值是通过每个点的可优化不透明度和SH颜色系数以及观察方向来计算的。语义图可以通过将等式3中的颜色c替换为语义特征来简单地渲染。

2）Spatial-temporal Field Network

传统的3D高斯Splatting方法主要关注静态场景中的任务。然而，现实世界是动态的，特别是在自动驾驶等场景中。这使得从3DGS（3D高斯Splatting）过渡到4D成为一项关键且具有挑战性的工作。首先，在动态场景中，每个移动camera在每个时间步捕获的视图比静态场景更稀疏，由于这种稀疏性，对每个时间步进行单独建模变得异常困难。因此，考虑时间步之间的信息共享变得至关重要。

此外，对于像自动驾驶这样的大规模或长时间场景，在空间和时间上建模所有高斯点是不切实际的，因为这会导致显著的内存开销。因此，这里提出了利用一种基于高斯的时空网络来建模3D高斯运动。该网络包括一个多分辨率Hexplane结构编码器和一个最小多头高斯解码器。它只需要维护一组规范3D高斯分布，并为每个时间步建模一个变形场。这个场预测相对于规范空间3D高斯分布的位移和颜色变化，从而捕捉高斯运动。此外，我们还引入了一个简单的语义场，以协助自动分解静态和动态高斯分布。

多分辨率Hexplane结构编码器。为了有效地跨时间步聚合时空信息，考虑到相邻的高斯分布通常具有相似的空间和时间特性，这里采用多分辨率Hexplane结构编码器E，并结合一个小型MLP ϕ来表示动态3D场景。具体来说，HexPlane将4D时空网格分解为六个多分辨率可学习特征平面，这些特征平面跨越每对坐标轴，每个特征平面都配备了一个正交轴。前三个平面Pxy、Pxz、Pyz仅表示空间维度，而后三个平面Pxt、Pyt、Pzt则表示时空变化。这种时间和空间的解耦有助于分离静态和动态元素，动态对象在时空平面上变得清晰可见，而静态对象则仅在空间平面上表现。

此外，为了促进空间平滑性和一致性，同时在压缩模型并减少最高分辨率下存储的特征数量时，受到Instant-NGP多尺度哈希编码的启发，Hexplane编码器包含多个不同分辨率的副本。这种表示有效地编码了不同尺度的空间特征。因此，公式设计为：

其中d是特征的隐藏维度，ρ代表上采样尺度，r等于基础分辨率。给定一个4D坐标(x, y, z, t)，然后获取神经体素特征，并使用一个小型MLP ϕ合并所有特征，如下所示：

其中，ψρ 将 4D 坐标 (x, y, z, t) 投影到相应的平面上，π 表示双线性插值，用于查询位于四个顶点上的体素特征。这里使用 Hadamard 积来合并这些平面，以产生空间局部化信号。

multi-head高斯解码器。使用单独的多层感知机（MLP）Head 来解码获得的特征。使用一个语义特征解码器来计算语义特征。考虑到大多数自动驾驶场景涉及刚性运动，只考虑高斯分布位置的变形，因此。此外，考虑到光照等因素，场景的外观会随着其全局位置和时间的变化而变化。因此还引入了一个SH系数头来建模4D动态外观模型。最后，变形4D高斯分布被表述为：σ。

3）自监督优化

激光雷达先验初始化。为了初始化3D高斯分布的位置，利用车辆捕获的激光雷达点云，而不是使用原始SFM点云，主要为了提供更好的几何结构。为了减少模型大小，还通过体素化整个点云并过滤掉图像外部的点来对其进行下采样。对于颜色，随机初始化它们。

优化目标。提出方法的损失函数由七部分组成，来共同优化我们的场景表示和时空场。是渲染图像和真实图像之间的L1损失，而测量它们之间的相似性。是激光雷达点云估计的深度图和渲染深度图之间的L2损失，用于监督高斯分布的期望位置。渲染深度是根据高斯分布的位置计算得出的，是语义特征的L2损失。还引入了基于网格的总变分损失。鉴于场景中的大多数元素是静态的，在时空网络中引入了正则化约束，以增强静态和动态组件的分离。通过最小化E(△X)和E(△C)的期望来实现这一点，这鼓励网络仅在必要时产生偏移值。然后，总损失函数可以表述如下：

实验结果

数据集。NOTR数据集是整理的Waymo Open数据集的一个子集，包含了许多具有挑战性的驾驶场景：自车静止、高速、曝光不匹配、黄昏/黎明、阴暗、下雨和夜间场景。相比之下，许多带有激光雷达数据的公共数据集存在严重的失衡问题，例如nuScenes和nuPlan，它们主要展示的是少数动态对象的简单场景。因此，利用NOTR的动态和静态数据集，总共64个场景，以获得一个平衡且多样化的标准来评估静态和动态重建。此外，由于大多数基线方法都是基于NeRF的，为了确保对方法性能的公平评估，与当前最先进的基于高斯的方法StreetGaussian进行了比较。遵循StreetGaussian使用的数据集配置，从Waymo Open数据集中选择了六个场景，这些场景以复杂的环境和显著的目标运动为特点。

基线方法。将我们的方法与包括基于NeRF的模型和基于3DGS的模型在内的最先进方法进行了评估。MARS是一个基于NeRF的模块化模拟器，利用2D框分别训练NeRF以处理静态和动态对象。NSG学习潜在表示以使用共享解码器对移动目标进行建模。EmerNeRF也建立在NeRF的基础上，但通过优化流场来自我监督动态场景的建模，这代表了动态驾驶场景表示的自我监督学习中的当前最佳技术（SOTA）。3DGS模型采用各向异性3D高斯椭球作为明确的3D场景表示，在静态场景的各种任务中取得了最强的性能。StreetGaussian是最新的高斯基方法，将时间引入SH系数中，也达到了SOTA性能，尽管也利用了2D跟踪框。为了公平比较，也对3DGS应用了激光雷达点云初始化，对3DGS和MARS应用了深度正则化，以反映我们的方法。

表1：在Waymo-NOTR数据集上，提出的方法与现有最佳方法（SOTA）的总体性能对比。"PSNR*"和"SSIM*"分别表示动态对象的PSNR和SSIM。最佳结果和次佳结果分别用粉色和蓝色表示。

在Waymo-Street数据集上的定性比较，所有结果均来自新视图的合成。与StreetGaussian相比，提出的方法显示出更强的自监督重建远处动态目标的能力，并且对场景细节的变化更为敏感。

参考

[1] S3Gaussian: Self-Supervised Street Gaussians for Autonomous Driving.

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向，目前近60+技术交流群，欢迎加入！扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

④【自动驾驶之心】全平台矩阵

自动驾驶之心

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
UC伯克利最新！S3Gaussian：全球首个开源自动驾驶3DGS工作

点击下方卡片，关注“自动驾驶之心”公众号戳我->领取自动驾驶近15个方向学习路线>>点击进入→自动驾驶之心『3DGS』技术交流群论文作者|Nan Huang编辑 | 自动驾驶之心写在前面&为什么要提出？街道场景的逼真3D重建是开发自动驾驶现实世界模拟器的一项关键技术。尽管神经辐射场（NeRF）在驾驶场景中具有有效性，但由于3D高斯Splatting（3DGS）的速度...
复制链接

扫一扫