Street Gaussians到底如何解决闭环仿真的难题？

自动驾驶之心

于 2025-05-22 07:30:25 发布

阅读量41

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247665399&idx=2&sn=23054f5a723ad82cbe976d0919ceff9d&chksm=cf46d2da033fc050c12b3805454d85894dc5b26a633b589e6c960b5a1dc9ebd266bc76f219b2&scene=126&sessionid=0

版权

随着神经场景表征的发展，之前出现了一些方法尝试用神经辐射场重建街道场景。为了提高建模能力，Block-NeRF 将场景划分为几个块，并用 NeRF 网络表示每个块。虽然这种策略可以实现大规模街道场景的逼真渲染，但由于网络参数数量庞大，Block-NeRF 的训练时间较长。此外，它无法处理街道上的动态车辆，而这是自动驾驶环境模拟中的关键方面。最近，一些方法提出将动态驾驶场景表示为由前景移动汽车和静态背景组成的组合神经表示。为了处理动态汽车，他们利用跟踪的车辆姿态来建立观察空间和规范空间之间的映射，在那里他们使用 NeRF 网络来模拟汽车的几何形状和外观。虽然这些方法产生了合理的结果，但它们仍然局限于高训练成本和低渲染速度。

下图是在Waymo数据集上的渲染结果。street gaussians的方法在训练半小时内以 135 FPS的速度产生高质量的分辨率为1066×1600渲染视角。这两个基于NeRF的方法存在训练和渲染成本高的问题。

以前的方法通常面临训练和渲染速度慢以及车辆姿态跟踪不准确的挑战。给定从城市街道场景中的移动车辆捕获的一系列图像，street gaussians的目标是开发一个能够生成逼真图像以进行视图合成的高效模型。为了实现这一目标，street gaussians基于3DGS，提出了一种新颖的场景表示，专门用于建模动态街道场景。

动态城市街道场景表示为一组基于点的背景和前景物体，具有可优化的跟踪车辆姿势。每个点都分配有一个 3D 高斯，包括位置、不透明度和由旋转和缩放组成的协方差，以表示几何形状。为了表示外观，street gaussians为每个背景点分配一个球面谐波模型，而前景点与动态球面谐波模型相关联。显式的基于点的表示允许轻松组合单独的模型，从而实现高质量图像和语义图的实时渲染（如果在训练期间提供 2D 语义信息），以及分解前景对象来进行场景编辑。

Street Gaussians用单独的神经点云表示静态背景和每个移动车辆对象。

接下来，我将首先介绍它的背景模型，详细说明与对象模型共享的几个常见属性。随后，我将深入讲解它的动态物体模型设计。

背景模型表示为世界坐标系中的一组点。每个点都分配有一个 3D 高斯，来表示连续场景的几何形状和颜色。高斯参数由协方差矩阵 Σb 和位置向量 µb ∈ R3组成。为了避免优化过程中出现无效值，每个协方差矩阵进一步简化为缩放矩阵 Sb 和旋转矩阵 Rb，其中 Sb 以其对角线元素为特征，Rb 转换为单位四元数。协方差矩阵 Σb 可以从 Sb 和 Rb 中恢复。

除了位置和协方差矩阵之外，每个高斯还被分配一个不透明度值和一组球面谐波系数来表示场景几何和外观。为了获得与视图相关的颜色，球面谐波系数进一步乘以从视图方向投影的球面谐波基函数。为了表示3D语义信息，每个点都添加了一个语义的概率。

对于物体模型，考虑一个包含 N 个移动前景物体车辆的场景。每个物体都用一组可优化的跟踪车辆姿态和点云表示，其中每个点都分配有一个 3D 高斯、语义概率和动态外观模型。物体和背景的高斯属性相似，不透明度 αo 和比例矩阵 So 具有相同的含义。然而，它们的位置、旋转和外观模型与背景模型不同。位置 µo 和旋转 Ro 在物体局部坐标系中定义。为了将它们转换为世界坐标系（背景的坐标系），我们引入了物体跟踪姿势的定义。具体而言，车辆的跟踪姿势定义为一组旋转矩阵 {Rt} Nt t=1 和平移向量 {Tt} Nt t=1，其中 Nt 表示帧数。转换可以定义为：xxx。

其中 µw 和 Rw 分别是世界坐标系中相应物体的高斯分布的位置和旋转。经过变换后，物体的协方差矩阵 Σw 可以通过前面的公式和 Rw 以及 So 得到。需要注意的是，street gaussians还发现现成跟踪器的跟踪车辆姿态有很多噪声。为了解决这个问题，street gaussians将跟踪车辆姿态视为可学习的参数。

但是仅用球谐函数系数表示物体外观不足以对移动车辆的外观进行建模，因为移动车辆的外观受其在全局坐标系场景中的位置影响。一种直接的解决方案是使用单独的球谐函数来建模每个时间点的物体。但是，这种建模会显著增加存储成本。相反，street gaussians引入 4D 球谐函数模型，用一组傅里叶变换系数 f ∈ R k 替换每个 SH 系数 zm,l，其中 k 是傅里叶系数的数量。给定时间点t，通过执行逆离散傅里叶变换来得到渲染特征：xxx。

利用所提出的模型，street gaussians将时间信息编码到外观中，而无需高存储成本。物体模型的语义表示与背景的语义表示不同。主要区别在于，物体模型的语义是一个可学习的一维标量，它表示来自跟踪器的车辆语义类别。

4D球谐函数的效果。第一行显示输入的序列图像，展示不同的外观。第二行演示了利用所提出的4D球谐函数对渲染结果的影响。如果没有4D球谐函数，则可以观察到明显的伪影。

3D Gaussian 中使用的 SfM 点云适用于以物体为中心的场景。然而，它不能为具有许多观察不足或无纹理区域的城市街道场景提供良好的初始化。street gaussians使用自车捕获的聚合 LiDAR 点云作为初始化。LiDAR 点云的颜色是通过投影到相应的图像平面并搜索像素值获得的。为了初始化物体模型，street gaussians首先收集 3D 边界框内的聚合点并将它们转换为局部坐标系。对于 LiDAR 点少于 2K 的对象，street gaussians改为在 3D 边界框内随机采样 8K 点作为初始化。对于背景模型，street gaussians对剩余的点云执行体素下采样并过滤掉训练相机不可见的点，并且结合 SfM 点云来弥补 LiDAR 在大面积上的有限覆盖范围。

本文均出自《面向科研&落地的3DGS全栈实战教程》，欢迎扫码加入学习：

重建效果如何？

静态场景重建：

表面场景重建：

动态场景重建：

自动驾驶场景重建：

入门学习仍然困难？

正如前文所述，3DGS发展至今已经衍生出各个子方向，3D Gaussian如何表示三维世界？又是如何渲染出二维图像？时序又如何引入进化到4D GS？整个3DGS涉及到的模块、细节众多。这类知识点琐碎，系统也比较复杂，如果没有比较好的教程带着入门，往往会踩坑，后期不知道怎么学习。新视角泛化怎么提升？场景编辑又是什么魔法？自动驾驶仿真闭环又是如何用到Gaussian Splatting的？工业界和科研还适不适合入局？这些都是阻挡新手入门以及进阶的难点。

扫码加入学习！

为此，我们联合业内头部自动驾驶公司算法专家，联合展开了业内首门面向3DGS全栈实战小班课，Cover 3DGS的各个子领域，让大家真正能够学得透彻，后期配有代码实战讲解，助力大家真正从实现的角度上搞懂算法。同时作为专享福利，小班课将赠送《NeRF与自动驾驶论文带读课程》!

小班课完整版大纲如下：

这门课程将会如何展开

第一章：视觉重建算法基础

第一章会介绍视觉重建领域的基础算法。视觉重建属于计算机视觉和计算机图形学的交叉领域，其基础算法也会涉及到这两个研究方向。神经辐射场（NeRF）和3D高斯泼溅（3DGS）的提出就是建立在视觉重建算法的基础上。本章的内容主要包括：

第二章：3DGS大观

第二章会详细介绍有关3DGS的技术细节。3DGS自从发表在Siggraph 2023上，由于其训练和渲染速度快的特点，在不到两年的时间内迅速发展，被大量的相关工作采用作为基础模块并且扩展到自动驾驶领域。因此第二章带大家深度入门3DGS，从数据到算法、从可视化到评测、从整体到细节模块，全面剖析！本章的内容主要包括：

第三章：静态场景重建-3DGS

第三章会挑选有关增强3DGS在静态场景中渲染表现的三个工作进行剖析。对于项目实战，本章挑选CVPR2024的最佳学生论文Mip-Splatting作为主体。Mip-Splatting专注于对3DGS在多分辨率图像下的渲染表现进行增强。它引入的3D 平滑滤波器和2D 盒式滤波器策略有效地解决了原始3DGS在放大效果下的伪影和交叠问题，而这部分内容仍然是当下学术界研究的前沿。本章的内容主要包括：

第四章：动态场景重建4DGS

第四章会讲解三个动态场景重建的工作。动态场景重建能够建模物体随时间运动的变化，世界不是静止的，物体在移动，色彩在变化。4DGS就像行走在时间上的舞者，在每个时刻都有自己独特的表现。本章选取CVPR2024的满分文章Deformable GS来作为项目实战，来让大家对可变形场有个清晰的认识，也为之后的课程大作业打好基础。本章的内容主要包括：

第五章：场景表面重建-2DGS

第五章会着重介绍基于3DGS进行场景表面重建的三个相关工作。通过场景的表面重建，可以对自动驾驶场景进行物理编辑，比如添加车辆，行人等物体。本章选取当前基于3DGS的SOTA方案PGSR来让大家深入了解场景表面重建的一些基本环节，本章的内容主要包括：

第六章：自动驾驶场景重建-混合GS

第六章则聚焦在自动驾驶场景，对将动静态场景混合情况下的3DGS进行优化的三个工作进行深度解读。只有重建出完整的场景，才能进行场景编辑，进而才能实现闭环仿真。自动驾驶场景的重建涉及到动静态物体分解，所以本章选取Street Gaussians项目作为实战来带大家熟悉基本的分解策略。本章的内容主要包括：

第七章：课程大作业

第七章是课程实战的精华部分，3DGS未来还有哪些研究方向？驾驶场景如何优化？工业界&科研最常用的算法框架是哪个？为此，我们选择了当下应用最广泛的gsplat，其对3DGS的pytorch版本进行了代码重构的开源项目，并提升了原版代码的训练效率，且仓库十分活跃，目前已经支持很多主流算法，非常适合科研及工程应用。本课程的大作业会带着大家从头到尾实现一个基于gsplat的驾驶场景重建的算法设计。

第八章：升学和求职模块

第八章是课程的应用模块，主打升学和求职的经验分享。工欲善其事必先利其器，有了前面七个章节的『器』，咱们在第八章终于可以做『事』了。有了算法经验和工程经验，如何进一步升学和求职呢？需要做哪些准备？3DGS在学术界的研究趋势和工业界的落地现状如何了？目前还有哪些问题仍未解决？在这一章节，老师都会毫无保留的分享给大家。