#端到端1

说起端到端,每个从业者可能都觉得会是下一代自动驾驶量产方案绕不开的点!特斯拉率先吹响了方案更新的号角,无论是完全端到端,还是专注于planner的模型,各家公司基本都投入较大人力去研发,小鹏、蔚来、理想、华为都对外展示了其端到端自动驾驶方案,效果着实不错,非常有研究价值。

为什么需要端到端?

首先我们聊一下当前的主流自动驾驶方案,主要核心部分包括:感知模块、预测模块、规控模块。每个模块相对独立,感知模块给预测模块提供动静态障碍物信息;预测模块为规控模块提供规划的参考,规划再转换为控制指令。从传感器端到控制端,需要多个功能支持,这就不可避免导致了累积误差,一旦碰到问题,需要整个pipeline做分析。而且每个模块的优化,并不能保证整个系统达成最优解。

这个时候,就希望有一种模型能够完成感知信息的无损传递,即从传感器端到输出控制策略端,这也是端到端自动驾驶提出的原因。传统定义上感知和规划模块的对接一般是通过白名单(比如机动车、行人、甚至occ输出的非通用几何障碍物)的检测与预测来完成,是人为定义的规则和抽象。随着产品的迭代,每一次都需要添加各类case,设计各种博弈的策略,从模型训练到工程部署再到逻辑设计,时间和人力成本高昂。

而且这种方式无法罗列所有情况,那么是否可以通过对整个场景的学习抽象,无损的将所有信息传递给PnC部分?这就是我们期望的端到端。端到端核心是优化最终目标且全局可导,作为一个完整的优化任务来看,直接求最优解,而不是先求感知再求规控的最优解。

端到端效果怎么样?

今年各大自动驾驶公司都在预研和落地相关端到端方案,小鹏、蔚来、华为、理想也都对外展示了其端到端方案。由于端到端模型的优势明显,各大自动驾驶公司都在拼命布局揽人,对应岗位薪资水涨船高,某想甚至开出了七位数给到该岗位。

那么各家的端到端自动驾驶效果怎么样呢?先来看看国外的特斯拉:

再来看看国内的UniAD效果:

不得不说,端到端是一个更简约的方法,更具有全场景的优化能力。

端到端有哪些技术栈?

行业里面的端到端主要分为完全端到端方案、专注于planner的端到端方案(包括某鹏的XPlanner)。顾名思义,完全端到端是从传感器直接到规控;而专注于planner的端到端以感知模块的输出作为先验,替换原来以规则作为主要形式的PnC模块。

从传感器到控制策略的(如果把条件再放松下也可以到轨迹输出)完全端到端方案更为简约,但同样面临一个问题,可解释性差。UniAD用分阶段监督的方法逐步提高了可解释性,但训练仍然是个难题。在足够体量和质量的数据群下,效果能够得到保证,泛化性能也不错。

而专注于planner的端到端方案,如果深究的话,只能算狭义上的端到端,但更贴合当下的量产方案和任务,而且可解释性也较高,是目前主机厂和自动驾驶公司优先推行和落地的。

如果从信息输入的角度上来看,又可以分为纯视觉方案(UAD、UniAD这类)和多模态方案(FusionAD这类),传感器成本不断在下降,多模态方案也一直是行业里面都在关注的点。



#3DGS

3DGS的发展已经势不可挡,目前已经成为3D表示的主流方法。它可以通过高效的训练将多视图图像有效地转换为显式的3D高斯表示,并实现新颖视图的实时渲染。本次调查旨在从多个交叉的角度分析现有的3DGS相关作品,包括相关任务、技术、挑战和机遇。主要目标是让新来者快速了解该领域,并协助研究人员有条不紊地组织现有技术和挑战。具体来说,我们深入研究了3DGS的优化、应用和扩展,并根据其重点或动机对其进行了分类。此外,我们总结并分类了现有工作中确定的九种技术模块和相应的改进。基于这些分析,我们进一步研究了各种任务中的共同挑战和技术,提出了潜在的研究机会。

汇总链接:https://github.com/qqqqqqy0227/awesome-3DGS

总结来说,本文的主要贡献如下:

  • 1)本调查讨论了3DGS及其各种衍生任务,包括3DGS的优化、应用和扩展。与现有的综述不同,我们根据重点或动机提供了更详细的分类,使读者能够更全面地了解任务和既定的研究方向。
  • 2)更重要的是,我们全面分析了现有文献中3DGS中各种技术的增强,提供了详细的分类和深入的讨论。这使读者能够发现各种改进技术中的社区,从而帮助他们将其应用于定制任务。
  • 3)基于对现有工作和技术的分析,我们确定了3DGS相关任务之间的共性和关联,并总结了核心挑战。
  • 4)在应对共同挑战时,本调查阐明了潜在的机遇,并提供了有见地的分析。
预备知识
Neural Implicit Field

Neural implicit field表示在最近的研究中引起了极大的关注。这些方法将2D或3D信号概念化为相应欧几里德空间内的场,使用离散样本训练近似这些场的神经网络。这种方法有助于对原始离散样本进行重建、插值和外推,从而实现2D图像的超分辨率和3D场景的新颖视图合成等应用。在3D重建和新颖视图合成的特定背景下,神经辐射场(NeRF)利用神经网络将3D场景的几何形状和外观建模为密度场和辐射场。NeRF采用体积渲染来建立从3D场到2D图像的映射,从而能够从多个2D图像重建3D信号,并促进新颖的视图渲染。在该领域当前最先进的方法中,Mip NeRF 360[8]因其卓越的渲染质量而脱颖而出,而Instant NGP则因其出色的训练效率而闻名。

然而,神经隐式场方法在很大程度上依赖于体积渲染过程来获得渲染像素。这个过程需要沿每条射线采样数十到数百个点,并将它们输入神经网络以产生最终的成像结果。因此,渲染单个1080p图像需要大约108次神经网络前向传递,这通常需要几秒钟的时间。尽管一些作品采用显式、离散化的结构来存储连续的3D场,从而最大限度地减少了对神经网络的依赖,并加速了场表示的查询过程,但固定数量的采样点仍然会带来极高的渲染成本。这种基于体绘制的方法无法实现实时绘制,因此限制了它们在下游任务中的适用性。

Point-based Rendering

由于连续的3D场无法区分场景中的已占用空间和未占用空间,因此在体积渲染过程中,大量采样点位于未占用空间中。这些采样点对最终渲染结果的贡献最小,导致渲染效率低。相比之下,离散点云表示只记录了3D场景中真正被占用的部分,提供了一种更高效、更精确的表示场景的方法。基于点云的渲染依赖于光栅化而不是随机采样,允许使用现代GPU进行实时渲染。

然而,现有的基于点云的高质量差分渲染方法通常依赖于预先构建的点云或需要密集的点云重建。这些方法在训练过程中没有进一步优化点云结构,导致渲染质量高度依赖于初始点云质量,并使最终图像容易出现伪影或不正确的外观。

3D Gaussian Splatting

3D GS结合了神经隐式场和基于点的渲染方法的优点,实现了前者的高保真渲染质量,同时保持了后者的实时渲染能力,如图3所示。

3DGS的优化

Efficiency

效率是评估3D重建的核心指标之一。在本节中,我们将从三个角度对其进行描述:存储、训练和渲染效率。

存储效率

3DGS需要数百万不同的高斯基元来适应场景中的几何形状和外观,从而导致高存储开销:室外场景的典型重建通常需要数百兆字节到数千兆字节的显式存储空间。鉴于不同高斯基元的几何和外观属性可能高度相似,每个基元的干扰属性可能会导致潜在的冗余。

因此,现有的工作主要集中在应用矢量量化(VQ)技术来压缩大量高斯基元。

Compact3D应用VQ将不同属性压缩到四个相应的码本中,并将每个高斯的索引存储在这些码本中以减少存储开销。在建立码本之后,训练梯度被复制并通过码本反向传播到原始的非量化高斯参数,更新量化和非量化参数,并在训练完成时丢弃非量化参数。此外,Compact3D采用游程编码来进一步压缩排序后的索引值,从而提高了存储效率。同样,Niedermayr等人的工作提出了一种基于灵敏度感知k-means的灵敏度感知矢量量化技术来构建码本,并使用DEFLATE压缩算法来进一步压缩训练好的码本。经过训练,它提出了一种量化感知微调策略,以恢复由于VQ而丢失的信息。

此外,一些工作旨在开发修剪策略或压缩SH参数。

LightGaussian介绍了一种基于全局显著性得分的高斯修剪策略和一种用于高阶球谐参数的蒸馏策略。

此外,还有一些工作专注于改进高效的高斯表示。

Scaffold GS设计锚点和其他属性以实现高效表示,这些属性能够转换为3DGS。基于这种表示,Scaffold GS提出了一套在多分辨率体素网格上生长和修剪锚点的策略。

训练效率

提高训练效率对3DGS也很重要。DISTWAR介绍了一种先进的技术,旨在加速基于光栅的差分渲染应用程序中的原子操作,由于大量的原子更新,这些应用程序在梯度计算过程中通常会遇到严重的瓶颈。通过在原子更新中利用扭曲内局部性并解决扭曲之间原子流量的可变性,DISTWAR使用寄存器在SM子核上实现了线程扭曲级别的降低。此外,它在SM和L2原子单元之间动态分配原子计算。该软件实现仅使用现有的扭曲级原语,以尽量减少指向L2的原子操作数量,从而显著提高吞吐量。

渲染效率

实时渲染是基于高斯方法的核心优势之一。一些提高存储效率的工作可以同时提高渲染性能,例如,通过减少高斯基元的数量。在这里,我们讨论有助于这些进步的其他工作。

在训练3DGS之后,[29]的工作涉及通过基于空间接近度和对最终渲染的2D图像的潜在影响的离线聚类来预先识别和排除不必要的高斯基元。此外,这项工作引入了一种专门的硬件架构来支持这项技术,与GPU相比,速度提高了10.7倍。

GSCore提出了一种硬件加速单元,用于优化辐射场渲染中3DGS的渲染流水线。在分析高斯排序和光栅化性能瓶颈的基础上,GSCore引入了高斯形状感知交集测试、分层排序和微妙跳过等优化技术。在GSCore中实现这些技术,与移动GPU相比,平均速度提高了15.86倍。

真实性

真实性也是一个值得关注的话题。3DGS有望在各种场景中实现逼真的渲染。一些工作专注于在原始设置中进行优化。

为了确保对SfM初始化的依赖性,GaussianPro引入了一种创新的2D-3D联合训练范式。基于3D平面定义和补丁匹配技术,它提出了一种渐进的高斯传播策略,该策略利用3D视图和投影关系的一致性来细化渲染的2D深度图和法线图。在几何滤波和选择过程之后,采用优化的深度和法线图进行加密和额外的监督,最终实现精确的几何表示。

多尺度渲染性能的急剧下降也是一个值得关注的话题。

这项工作首先分析了低分辨率和远距离渲染中频域混叠的原因,使用多尺度高斯来解决这个问题。然后,定义像素覆盖率以反映与当前像素大小相比的高斯大小。基于这一概念,它识别小高斯分布并将其聚合为较大的高斯分布,以进行多尺度训练和选择性渲染。

其他作品试图重建具有挑战性的场景,如反射表面和Relightable。

GaussiansShader通过采用混合颜色表示并集成镜面GGX和法线估计模块来重建反射表面,该模块包括漫反射颜色、直接镜面反射和考虑散射和间接光反射等现象的残余颜色分量。此外,GaussiansShader在训练过程中在3DGS中引入了着色属性和法线几何一致性约束。

泛化性和稀疏视角

稀疏视图环境下的泛化和重建挑战长期以来一直受到学术界的广泛关注。由于需要对每个场景进行重新训练以及对样本输入的高要求,隐式表示(如NeRF)和显式表示(如3DGS)在实际应用中都面临着巨大的障碍。在本节中,我们将讨论他们的实验设置,并对现有作品进行更详细的了解。

Generalizable 3D Gaussian Splatting

现有的可泛化的3D重建或新颖的视图合成任务的目标是利用广泛的辅助数据集来学习场景无关的表示。在NeRF的研究中,这个过程通常涉及输入少量(1-10)具有相邻姿势的参考图像来推断目标图像。辐射场起着中间体的作用,有效地消除了对显式场景重建的需要,并将任务转化为与场景无关的新颖视图合成问题。

相比之下,3DGS的显式表示导致了大量工作,这些工作侧重于使用参考图像在每个像素的基础上直接降低相应的高斯基元,随后用于从目标视图渲染图像。为了实现这一点,Splatter Image等早期作品提出了一种将图像转换为高斯属性图像的新范式,然后预测与每个像素对应的高斯基元。然后将此范式扩展到多个参考图像,以获得更好的渲染性能。

此外,基于多视图立体(MVS)的方法在场景重建和新颖的视图合成方面一直取得了重大成功,特别是在引入成本量的情况下,这增强了网络的空间理解。与MVSNeRF中的方法类似,MVSplat提出使用3D空间中的平面扫描来表示成本体积,并预测稀疏参考输入中的深度,精确定位高斯基元的中心。这种方法为新颖的视图合成提供了有价值的几何线索。

此外,一些研究侧重于引入triplane以实现泛化能力。

AGG引入了一种基于伪标签的初始化方法和多阶段训练策略。该策略包括粗略的高斯生成,然后使用参考图像特征进行超分辨率,从而产生详细的输出。

Sparse Views Setting

从稀疏输入进行重建带来了重大挑战,其中3DGS的方法与NeRF的方法基本相似,后者旨在开发新的正则化策略并整合补充信息,如深度数据。

Chung等人提出采用单目深度估计模型来预测深度图,随后使用SfM对深度图进行细化,以获得精确的深度范围。此外,他们的工作结合了深度平滑度损失和两种针对有限样本场景量身定制的改进技术。

此外,DNGaussian从正则化的角度探讨了这个问题,提出了两种不同的正则化:硬深度和软深度,以解决场景几何的退化问题。

一些研究集中在启蒙和训练策略上。GaussianObject介绍了一种基于Visual Hull的初始化策略和一种使用距离统计数据消除浮点数的优化方法。

3DGS的应用

3DGS因其高效和逼真的渲染而在各个应用领域表现出色,其中包括数字人体重建、人工智能生成内容(AIGC)和自动驾驶等。基于先前的探索,3DGS可以直接作为核心技术应用于各个研究领域,有效地取代传统的3D表示。

Human Reconstruction

3DGS在数字人类相关任务中的应用,包括人类重建、动画和人类生成,在研究界引起了极大的关注。最近的作品可以根据重建的部分进行分类。

  • Body Reconstruction:身体重建主要侧重于从多视图或单眼视频中重建可变形的人类化身,并提供实时渲染。我们在表1中列出了最近作品的比较。大多数作品更倾向于使用SMPL或SMPL-X等预先构建好的人类模型作为强先验知识。从来没有,SMPL仅限于引入有关人体本身的先验知识,从而对服装和头发等外部特征的重建和变形提出了挑战。为了重建外观,HUGS仅在初始阶段使用SMPL和LBS,允许高斯基元偏离初始网格以准确表示服装和头发。一些研究将问题空间从3D投影到2D,从而降低了复杂性,并能够利用成熟的2D网络进行参数学习。
  • Head Reconstruction:在人类头部重建领域,与大多数使用SMPL作为强先验的管道一样,GaussianAvatars的工作将FLAME网格与3DGS相结合,提供先验知识,以实现卓越的渲染质量。此方法补偿了FLAME网格无法准确描绘或跟踪的精细细节和元素。然而,Gaussian Head Avatar批评了使用FLAME网格和线性混合蒙皮(LBS)进行面部变形,并指出这些相对简单的线性操作很难捕捉到复杂面部表情的细微差别。相反,它建议使用MLP来直接预测高斯从中性表达式过渡到目标表达式时的位移。这种方法有助于渲染高分辨率的头部图像,分辨率高达2K。
AIGC

AIGC利用人工智能技术自主制作内容。最近,基于3DGS生成3D(X Y Z)表示的方法激增。在本章中,我们根据提示的类型及其生成的对象对当代算法进行了系统的分类。类别包括图像到3D对象生成、文本到3D对象生成器、多对象和场景生成以及4D生成(X Y Z−T),如图4所示。下面,我们概述了这些类别中的相关作品。

自动驾驶

在自动驾驶领域,3DGS主要应用于大规模驾驶场景的动态重建和SLAM的组合应用。

  • 自动驾驶场景重建:重建驾驶场景是一项具有挑战性的任务,涉及多个技术领域,如大规模场景重建、动态对象重建、静态对象重建和高斯混合重建。大量的作品将重建过程分为静态背景重建和动态目标重建。像StreetGaussians、DrivingGaussian等。此外,3DGS已被应用于多模态时空校准任务,比如3DGS-Calib。
  • SLAM:SLAM是机器人和计算机视觉中的一个基本问题,其中设备构建未知环境的地图,同时确定其在该环境中的位置。SLAM的技术方法可大致分为传统方法、涉及NeRF的技术和与3DGS相关的方法。其中,3DGS方法因其提供连续表面建模、降低内存要求、改进噪声和异常值处理、增强孔洞填充和场景修复以及3D网格重建中灵活分辨率的能力而脱颖而出。一些研究保留了传统的SLAM输入,并从两个角度进行了研究:在线跟踪和增量映射。语义很重要,因为它们不仅提供场景理解,而且稳定训练过程。此外,还有几部作品关注相关问题,如定位和导航。
3DGS的扩展 动态3DGS

动态3DGS的研究最近引起了研究人员的极大关注。动态场景的重建超越了静态场景重建的局限性,可以有效地应用于人体运动捕捉和自动驾驶仿真等领域。与静态3DGS不同,动态3DGS不仅必须考虑空间维度的一致性,还必须考虑时间维度的一致,确保随时间的连续性和平滑性。在这里,我们根据不同的重建输入将它们分为多视图视频和单眼视频。

  • Multi-view Videos:一些作品试图逐帧直接构建动态3DGS。其他工作旨在通过预测变形来实现这种性能。
  • Monocular Video:一些单目动态3DGS工作往往分为两个阶段:规范重建和变形预测。探索时间上连续的运动可以促进时间维度的平滑,而不是离散的偏移。最近的工作旨在将3DGS扩展到4D空间,用于动态3D场景表示。
表面表示

尽管3DGS能够实现高度逼真的渲染,但提取曲面表示仍然具有挑战性。在优化过程之后,得到的表示通常会渲染有序的结构,与实际表面不太对应。然而,基于网格的表示仍然是许多工作流程中的首选,因为它们允许使用强大的工具进行编辑、雕刻、动画和重新照明。当涉及到曲面重建时,符号距离函数(SDF)是一个不可或缺的课题。其他研究旨在通过增强3DGS的内在属性来解决这个问题。

Editable 3D Gaussian Splatting

3DGS以其实时渲染、复杂场景表示和显式表示的优点,自然引起了专注于3DGS编辑的研究人员的关注。遗憾的是,目前可编辑的3DGS作品往往缺乏精确的训练监督,这给编辑带来了重大挑战。在本节中,我们根据不同的任务对现有作品进行分类。

  • Manipulation by Text
  • Manipulation by Other Conditions
  • Stylization
  • Animation
语义理解

赋予3DGS语义理解能力,可以将2D语义模型扩展到3D空间,从而增强模型在3D环境中的集成。这可以应用于各种任务,如3D检测、分割和编辑。许多工作试图利用预先训练的2D语义感知模型对语义属性进行额外的监督。其他则专注于将文本视觉对齐功能融入到开放世界的理解中。

物理仿真

最近的努力旨在将3DGS扩展到仿真任务。

基于“你所看到的就是你所模拟的”的理念,PhysGausian将静态3DGS重建为要模拟的场景的离散化,然后将连续体力学理论与材料点法(MPM)求解器相结合,赋予3DGS物理特性。为了稳定基于旋转的不同外观并将粒子填充到空隙内部区域,PhysGausian提出了一种进化的方向和内部填充策略。

技术分类

DGS一般可分为以下阶段,如图3所示:初始化、属性优化、splatting、正则化、训练策略、自适应控制和后处理。此外,一些竞争作品旨在纳入补充信息和表示,从而增强3DGS的能力。这些技术改进不仅提高了原始3DGS的渲染性能,还解决了衍生作品中的特定任务。因此,本节深入探讨了3DGS的技术进步,旨在为相关领域的研究人员提供有价值的见解。

初始化

正确的初始化已被证明是至关重要的,因为它直接影响优化过程。3DGS的初始化通常使用从运动结构(SfM)导出的稀疏点或通过随机生成来执行。然而,这些方法往往不可靠,特别是在弱监督信号下,如稀疏视图设置和生成任务。

组合预训练模型是一种可选方法。

在有限数量的3D样本上预训练3D模型并将其用作初始化先验是一种可行的策略。这种方法可以在一定程度上提高初始化的性能,尽管其有效性取决于所使用的数据。为了解决这一局限性,还引入了预训练的3D生成模型或单目深度估计模型用于初始化。

改进初始化策略也很重要。

基于对SfM在捕获频谱内低频信号中的作用的分析,设计了稀疏大方差(SLV)初始化,以有效地关注SfM识别的低频分布。

使用其他表示方式也可以增强初始化能力。通过从粗略的参数点模型确定局部体积,在每个体积内初始化少量高斯分布,从而避免对目标做出过多假设。因此,提出了一种基于Visual Hull的初始化策略,能够从四幅图像中获取结构先验。

讨论:精确初始化有可能通过提高性能和确保稳定的训练过程,使3DGS的各种衍生作品受益。

属性扩展

3DGS的原始属性包括位置、比例、旋转、球面谐波(SH)系数和不透明度值。一些作品扩展了这些属性,使其更适合下游任务。它可以分为改进现有属性或引入新属性,如图6所示。

Splatting

Splatting的作用是有效地将3D高斯数据转换为高质量的2D图像,确保平滑、连续的投影,并显著提高渲染效率。作为传统计算机图形学的核心技术,也有人从效率和性能的角度对其进行改进。

TRIP介绍了3DGS中用于实时渲染的ADOP,它使用屏幕空间图像金字塔进行点光栅化,并使用员工三线性写入来渲染大点。这种方法结合了前后阿尔法混合和用于细节重建的轻量级神经网络,确保了清晰、完整和无混叠的图像。

Regularization

正则化对于3D重建至关重要。然而,由于缺乏3D数据的直接监督,原始3DGS通过将渲染图像与真实图像进行比较来监督其训练。这种形式的监督可能会导致训练不稳定,特别是在不确定的场景中,例如视图设置稀疏的场景。在本节中,我们将正则化项分为2D和3D正则化项,如图8所示。

训练策略

训练策略也是一个重要课题。在本节中,我们将其分为多阶段训练策略和端到端训练策略,它们可以应用于不同的任务。

Adaptive Control

3DGS的自适应控制是调节高斯基元数量的重要过程,包括克隆、分割和修剪。在接下来的部分中,我们将从致密化(克隆和分裂)和修剪的角度总结现有技术。

后处理

预训练高斯的后处理策略很重要,因为它们可以提高3DGS的原始效率和性能。常见的后处理通常通过不同的优化策略来改进高斯表示。

表示转换:通过在采样的3D点上引入泊松重建,预训练的3DGS可以直接转换为网格。同样,高斯不透明度场(GOF)引入了3D边界框,将预训练的3DGS转换为四面体网格表示,然后使用水平集的二分搜索从中提取三角形网格。此外,LGM首先将预训练的3DGS转换为NeRF表示,然后使用NeRF2Mesh将其转换为Mesh。

性能和效率:一些工作旨在通过后处理(如多尺度渲染)提高3DGS在某些任务中的性能。基于预训练的3DGS,SA-GS引入了一种二维尺度自适应滤波器,该滤波器根据测试频率动态调整尺度,以提高缩小时的抗混叠性能。在效率方面,从预训练的3DGS中删除冗余的高斯基元或引入高斯缓存机制可以有效地提高渲染效率。

与其他表示的结合

  • Point Clouds
  • Mesh
  • Triplane
  • Grid
  • Implicit Representation
  • GaussianVolumes
Guidance by Additional Prior
  • Pre-trained Models
  • More Sensors
  • Task-specific Priors
相互关系和挑战

大量的研究集中在3DGS的优化、应用和扩展上。然而,这些讨论往往使问题过于复杂。在本节中,我们的目标是总结不同任务中的社区,并提出四个核心挑战及其相应的技术讨论,如表2所示。认识到这些共同的挑战和解决方案可以简化研究工作,促进跨学科进步。

Suboptimal Data Challenges

在现实世界中,收集大量高质量的训练数据往往不切实际。一方面,如果无法访问3D数据和足够的多视图图像,仅依靠有限数量的2D图像监控不足以进行精确的3DGS重建。例如,只有目标的正面图像,推断背部的外观就极具挑战性。另一方面,数据质量同样至关重要;准确的姿态和清晰的图像直接影响重建性能。

Generalization Challenges

尽管与NeRF相比训练效率有所提高,但特定场景的训练范式仍然是3DGS应用的主要瓶颈。很难想象必须为每个目标或场景单独训练,特别是在多目标重建和文本到场景生成中。

物理挑战

传统的3DGS只考虑静态渲染,忽略了物理运动定律,这在仿真中很重要。此外,基于物理的渲染是应用3DGS仿真物理世界的重要一步。得益于显式表示,可以构建符合物理定律的3DGS。

真实和效率挑战

真实和效率挑战是根本问题。它们在各种著作中得到了研究。在本节中,我们讨论了一些典型的相关任务,并总结了它们的常见技术。

关于现实挑战,现有作品不仅讨论了照片真实、表面重建和语义理解,还讨论了AIGC相关(和自动驾驶研究中的这个问题。提到的大多数技术都有助于提高渲染性能。不同的任务采用不同的方法。例如,AIGC相关工作通常侧重于改进训练策略和正则化,而表面重建工作与后处理步骤有关。

关于效率挑战,它们在一些衍生任务中有所提及,例如与自动驾驶和语义理解相关的任务。现有的改进通常侧重于引入额外的属性或后处理,以及改进自适应控制和splatting策略。

此外,不同的域之间还有一些未提及的关系。例如,表面重建技术经常在可编辑3DGS等背景下被引用。

潜在机遇

3DGS最近经历了重大发展,许多作品展示了其在相关任务中的潜力。在本节中,我们讨论了上述核心挑战中尚未解决的问题,并为未来的研究提出了潜在的方向。此外,我们还讨论了应用程序和技术的一些扩展。

Suboptimal Training Data

理想的3DGS训练过程需要足够的高质量数据,但在实际应用中,这往往极具挑战性。尽管专注于引入先验可以在一定程度上缓解这个问题,但在欠约束条件下优化大量高斯分布仍然存在固有的困难。因此,一种潜在的解决方案是根据高斯基元的不确定性减少其数量,同时增加单个基元的代表能力。这涉及到在高斯数和渲染性能之间找到一个折衷方案,从而提高使用稀疏样本的效率。

然后,还应考虑质量较差的数据。野生图像中的非结构化是一个典型的情况,包括瞬态遮挡和动态外观变化,如变化的天空、天气和照明,这在NeRF中得到了广泛的讨论。为了提高效率,现有的工作也在3DGS的背景下讨论了这个问题,3DGS试图对外观变化进行建模并处理瞬态对象。然而,他们的表现很挣扎,尤其是在光线变化复杂、遮挡频繁的场景中。由于3DGS的显式表示特性,解耦几何表示并在不同场景中引入几何一致性约束是一种有前景的方法,可以减轻训练过程中的不稳定性。

泛化性

尽管现有的泛化相关作品可以通过正向推理直接获得场景表示,但它们的性能往往不令人满意,并受到场景类型的限制。我们假设这是由于前馈网络在执行3DGS自适应控制方面的困难,正如[47]中提到的那样。在未来的研究中,设计一种基于参考特征的前馈自适应控制策略是一种潜在的解决方案,它可以通过参考特征预测需要自适应控制的位置,并可插入到现有的泛化相关工作中。此外,现有的与泛化相关的工作依赖于精确的姿态,这在实际应用中往往很难获得。因此,在位姿缺失条件下讨论可推广的3DGS也是有前景的。

物理问题

  • 基于物理的运动:确保3DGS的运动符合物理定律对于统一模拟和渲染至关重要。引入了与刚性相关的正则化项,但大多数现有工作都专注于3DGS的动画制作,而忽略了高斯基元本身的物理属性。一些开创性的工作试图引入属性速度和牛顿动力学规则,但这不足以完全描述3DGS在空间中的物理运动。一种潜在的解决方案是在高斯基元中引入更多的物理属性,如材料、加速度和力分布,这些属性可能受到某些仿真工具和物理知识先验的约束。
  • 基于物理的渲染:基于物理的渲染也是一个值得关注的方向,因为它使3DGS能够处理重新照明和材质编辑,从而产生出色的反向渲染结果。未来的工作可以探索3DGS中的解耦几何和外观,从正常重建以及照明和材料建模的角度进行研究。
真实与效率
  • 表面重建:重建清晰曲面的困难一直是影响渲染真实感的一个重大挑战。一些作品已经解决了这个问题,试图用平面高斯表示曲面。然而,这可能会导致渲染性能下降,可能是由于平面高斯基元的代表性容量降低或训练过程的不稳定性。因此,设计更适合曲面表示的高斯基元,并引入多阶段训练范式和正则化项是潜在的解决方案。
  • 效率:存储效率是3DGS的关键瓶颈之一。现有工作侧重于引入VQ技术和压缩SH参数,然而,这些方法不可避免地会影响渲染性能。因此,探索如何基于3DGS设计更高效的表示是提高效率的一种潜在方法,同时保持性能。
应用
  • Large-scale Gaussian Splatting:尽管最近的方法能够在小规模和以对象为中心的场景中进行有效的重建,但由于视频内存有限、长度优化时间和显著的外观变化,将这种能力扩展到大规模场景仍然具有挑战性。最近的一些作品试图解决这些问题。例如,VastGaussian直观地使用基于相机位置的区域划分机制将大型场景划分为多个小块,并根据空间感知可见性标准引入额外的辅助相机位置,从而实现每个小区域的精确重建。同样,Fed3DGS在大规模3DGS中引入了联邦学习框架,以减少中央服务器上的数据负载,并实现了高斯合并策略,实现了数百万客户端和分布式计算资源之间的分散重建。遵循这些方法,仍有很大的研究空间。
  • AIGC:现有的AIGC相关工作大多集中在单个静态对象的生成上。然而,在实际应用中,生成多个对象和动态对象更为重要。此外,在构建具有多个运动对象的场景时,表征对象交互也是一项值得研究的任务。
  • 应用扩展:由于3DGS的高效和强大的重建能力,许多应用在各个领域都引起了人们的关注,如医学、工业缺陷检测、图像压缩和航空。未来,3DGS可能会在机器人和生物学等其他领域取代NeRF进行3D重建。
技术改进
  • 初始化:越来越多的研究和工程项目发现,初始化在3DGS中很重要。传统的SfM初始化不适合许多受约束的场景,如稀疏视图设置、AIGC和低光重建。因此,应该设计更稳健的初始化方法来取代这些受限场景中的随机初始化。
  • splatting:splatting在3DGS中也起着重要作用,但在现有作品中很少提及。在预训练的3DGS上设计高效的并行splatting策略有可能影响渲染性能和效率。
结论

对3DGS领域的兴趣日益浓厚,催生了无数相关的下游任务和技术,从而导致该领域的复杂性和混乱性日益增加,表现为各种形式,包括不同作品中的相似动机;在不同的任务中整合类似的技术;以及各种技术之间的细微差别和相互联系。在这项调查中,我们努力根据现有作品的潜在动机对其进行系统分类,并批判性地讨论相关技术。我们的目标是阐明不同任务和技术之间的共同挑战,从而为理解这一快速发展的领域提供一个连贯的框架。这项调查旨在为新手和经验丰富的从业者提供宝贵的资源,促进导航和有效参与最新进展。此外,我们确定并强调了未来研究的潜在途径,旨在激发3DGS的持续创新和探索。