综述3D Gaussian Splatting: Survey, Technologies,Challenges, and Opportunities阅读记录(持续更新)

        本文大多数是对这篇综述的翻译,为了便于查读,并且做重点的标注与记录,加深对当前3DGS相关各个领域的印象,论文的arxiv网址:

https://arxiv.org/abs/2407.17418icon-default.png?t=N7T8https://arxiv.org/abs/2407.17418Abstract

        三维高斯溅射(3DGS)已经成为一个突出的技术,有可能成为一个主流的三维表示方法。它可以有效地将多视点图像通过有效的训练转换为显式的3D高斯表示,并实现实时绘制新的视图。本调查旨在从多个交叉角度分析现有的3DGS相关工作,包括相关任务,技术,挑战和机遇。主要目标是为新来者提供对该领域的快速了解,并协助研究人员有条不紊地组织现有技术和挑战。具体来说,我们深入研究了3DGS的优化、应用和扩展,并根据它们的重点或动机对其进行了分类。此外,我们总结和分类九种类型的技术模块和相应的改进,在现有的工作。基于这些分析,我们进一步研究了各种任务中的共同挑战和技术,并提出了潜在的研究机会。

1.INTRODUCTION

        神经辐射场(NeRF)的出现点燃了对追求照片级真实感3D内容的相当大的兴趣。尽管最近的重大进展显着增强了NeRF的实际应用潜力,但其固有的效率挑战仍未得到解决。3D高斯溅射(3DGS)的引入决定性地解决了这一瓶颈,实现了1080p分辨率下的高质量实时(≥30 fps)新颖视图合成。这一快速发展迅速引起了研究人员的极大关注,并导致相关作品的激增。

        由于3DGS的效率和可控的显式表示,其应用扩展到各个领域。这些包括增强虚拟现实(VR)和增强现实(AR)的沉浸式环境,改善机器人和自主系统的空间感知,电影和动画的先进视觉效果,以及城市规划和建筑等

        我们提供了一个全面的调查3DGS及其下游任务。这项调查系统地汇编了有关该主题的最重要和最新文献,对其重点和动机进行了详细分类和讨论。然而,我们发现,在不同的任务中,不可避免地会提到相当数量的类似技术。因此,我们进一步总结和分类3DGS的各种技术模块,如初始化,属性设置,正则化等。我们的目标是帮助读者阐明不同技术之间的联系,并增强3DGS的各种组件,以满足他们的定制任务。此外,我们还研究了3DGS中各种下游任务和技术之间的相互关系,系统地描述了四个主要挑战,以促进这一领域的未来研究。最后,我们强调了现有研究的局限性,并提出了解决核心挑战和推进这一快速发展的领域的有前途的途径

我们的目标是系统地讨论和细粒度地分类3DGS的相关任务和技术,并分析它们之间的共性和挑战,如图1所示。这篇综述的贡献如下:

(1)讨论了3DGS及其衍生任务,包括3DGS的优化、应用和扩展。提供了基于焦点或动机的更详细的分类,使读者能够更全面地了解任务并建立研究方向。

(2)全面分析了现有文献中提出的3DGS中各种技术的增强,提供了详细的分类和深入的讨论。使读者能够辨别各种改进技术之间的共性,从而帮助他们应用到定制的任务。

(3)在分析现有工作和技术的基础上,我们确定了3DGS相关任务之间的共性和关联,并总结了核心挑战。

(4)在应对共同挑战方面,本调查阐明了潜在的机遇,并提供了富有洞察力的分析。

(5)GitHub发布https://github.com/qqqqqqy0227/awesome-3DGS.

        如图2所示,本综述的结构组织如下:第2节描述了3DGS的背景和细节,强调了其相对于神经隐式场和基于点的渲染的优势。第3节重点介绍了如何优化3DGS以解决重建过程中遇到的挑战。第4节总结了3DGS的应用,并讨论了其在下游任务中的实现。第5节概述了3DGS的扩展,探讨了增强其原始功能的方法。第6节整合了用于改进3DGS模块的各种技术。第7节回顾了不同任务和技术之间的相互关系,并总结了核心挑战。最后,第8节概述了未来研究、解决现有挑战和技术优化的前景广阔的途径,第9节总结了本调查。在文章的前半部分,我们主要描述了现有的作品如何解决3DGS的下游任务,而后半部分则侧重于技术。虽然提到了一些重复的作品,但重点和内容不同。

2.PRELIMINARIES

2.1 Neural Implicit Field

        神经隐式场表示在最近的研究中引起了人们的广泛关注[5],[6]。 这些方法将要重构的 2D 或 3D 信号概念化为相应欧几里得空间内的场,利用离散样本来训练近似这些场的神经网络 这种方法有利于原始离散样本的重建、插值和外推,从而实现 2D 图像的超分辨率和 3D 场景的新颖视图合成等应用。 在 3D 重建和新颖视图合成的特定背景下,神经辐射场 (NeRF) [7] 利用神经网络将 3D 场景的几何形状和外观建模为密度场和辐射场。 NeRF 采用体积渲染来建立从 3D 场到 2D 图像的映射,从而能够从多个 2D 图像重建 3D 信号并促进新颖的视图渲染。 在该领域当前最先进的方法中,Mi​​p-NeRF 360 [8] 因实现卓越的渲染质量而脱颖而出,而 Instant-NGP [9] 以其卓越的训练效率而闻名

        然而,神经隐式场方法很大程度上依赖于体积绘制过程来获得绘制的像素这一过程需要沿着每条射线对数十到数百个点进行采样,并将它们输入神经网络,以产生最终的成像结果。因此,渲染单个1080p图像需要大约108次神经网络向前传递,这通常需要几秒钟的时间。尽管一些作品使用显式的、离散化的结构来存储连续的3D场,从而最小化了对神经网络的依赖并加速了对场表示[9]、[10]、[11]的查询过程,然而巨大的采样点的数量仍然会带来极高的渲染成本。 此类基于体积渲染的方法无法实现实时渲染,从而限制了它们在下游任务中的适用性

2.2 Point-based Rendering

        由于连续 3D 场不区分场景内的占用空间和未占用空间,因此体积渲染过程中的大量采样点位于未占用空间中。 这些采样点对最终渲染结果的贡献很小,导致渲染效率较低。 相比之下,离散点云表示仅记录 3D 场景中真正占据的部分,提供更高效、更精确的方式来表示场景。 基于点云的渲染依赖于光栅化而不是随机采样,允许使用现代 GPU 进行实时渲染。然而,现有的基于点云的高质量可微绘制方法通常依赖于预先构建的点云或需要密集的点云重建。这些方法在训练过程中没有进一步优化点云结构[12]、[13]、[14],导致渲染质量高度依赖于初始点云质量,并使最终图像容易出现伪影或外观不正确

2.3 3D Gaussian Splatting

        3D Gaussian Splatting[15]结合了神经隐式场和基于点的渲染方法的优点,实现了前者的高保真渲染质量,同时保持了后者的实时渲染能力,如图3所示。 ,3DGS 将点云中的点定义为具有体积密度的 3D 高斯基元。

        3DGS使用的重新参数化方法有助于对高斯基元施加几何约束(例如,约束尺度向量以使高斯基元具有平坦的特征)。除了几何属性,每个高斯基元还存储一个不透明度α和一组可学习的球面调和(SH)参数,以表示依赖于视点的外观。因此,所有primitives原语的集合可以被视为只存储神经场的非空部分的离散化表示

        在渲染过程中,3DGS使用EWA Splting方法[16]将3D高斯基元投影到2D成像平面上,并使用α混合来计算最终的像素颜色对于每个像素,这种渲染过程类似于神经领域中使用的离散形式的体积渲染,使3DGS能够构建复杂的场景外观并实现高质量的渲染。还实现了高帧速率、高分辨率的可区分渲染,使用了基于平铺的光栅化器。

        在训练开始时,初始高斯基元要么从SFM提供的稀疏点云初始化,要么随机初始化。 高斯基元的初始数量可能不足以进行高质量的场景重建; 因此,3DGS 提供了一种自适应控制高斯基元的方法。 该方法通过观察视图空间中每个高斯图元位置属性的梯度来评估图元是否“重建不足”或“过度重建”。 基于此评估,该方法通过克隆或分割图元来增加高斯图元的数量,以增强场景表示能力。 此外,所有高斯基元的不透明度会定期重置为零,以减轻优化过程中伪影的出现。 这种自适应过程允许 3DGS 使用较小的初始高斯集开始优化,从而减轻以前基于点的可微分渲染方法所需的对密集点云的依赖。

3.OPTIMIZATION OF 3D GAUSSIAN SPLATTING

3.1 Efficiency-效率

效率是评估3D重建的核心指标之一。 本节我们从存储、训练、渲染效率三个角度进行描述。

3.1.1 Storage Efficiency-存储

        3DGS需要数百万个不同的高斯基元来适应场景中的几何和外观,这导致了很高的存储开销:一个典型的室外场景重建通常需要几百兆到几千兆字节的显式存储空间,由于不同高斯基元的几何和外观属性可能高度相似,单独地存储每个图元的属性可能导致潜在的冗余

        因此,工作[17]、[18]、[19]主要集中在应用矢量量化[20](VQ)技术来压缩大量高斯基元。

        Compact3D[18]应用VQ将不同属性压缩成四个相应的码本,并将每个高斯的索引存储在这些码本中以减少存储开销。 建立码本后,将训练梯度通过码本复制并反向传播到原始非量化高斯参数,更新量化参数和非量化参数,并在训练完成时丢弃非量化参数。 此外,Compact3D采用游程编码来进一步压缩排序后的索引值,从而提高存储效率。 同样,Niedermayr 等人的工作 [19]提出了一种敏感度感知向量量化技术来构建基于敏感度感知k均值[21]的码本,并利用DEFLATE压缩算法[22]进一步压缩训练后的码本。 训练后,它提出了一种量化感知微调策略来恢复由于 VQ 丢失的信息。

        此外,一些工作[23],[24],[25]旨在制定修剪策略或压缩SH参数。

        这些工作[23]、[24]同时考虑了这两个问题。LightGaus[24]提出了一种基于全局重要性分数的高斯剪枝策略和一种高次球谐参数的提取策略。同样,Lee等人的工作也是如此。[23]引入了一个可学习的掩模来减少原始高斯白噪声的数量,并引入了一个统一的基于散列网格的外观字段[9]来压缩颜色参数。

        与上述工作不同,自组织高斯[25]不使用传统的非拓扑VQ码本来压缩大量高斯。 相反,它采用自组织映射的概念将高斯属性映射到相应的二维网格中。 二维网格中的拓扑关系反映了原始属性空间中的拓扑关系,允许将拓扑结构的二维数据的压缩算法应用于无序高斯基元。

        此外,还有一些工作[26]、[27]专注于改进有效的高斯表示

        Scaffold-GS[26]为有效的表示设计了锚和附加属性,它们具有转换为3DGS的能力。基于这种表示,Scaffold-GS提出了一套在多分辨率体素网格上生长和剪枝锚点的策略。GES [27]引入了广义指数(GEF)混合来代替高斯表示,它能够有效地拟合任意信号,通过设计一个快速的可微光栅化和调频图像损耗loss,GES能够在保持性能的同时利用较少数量的全环基金原语。

3.1.2 Training Efficiency-训练加速

        提高训练效率对于 3DGS 也很重要。 DISTWAR [28] 引入了一种先进技术,旨在加速基于光栅的可微分渲染应用程序中的原子操作, 这种纯软件实现采用现有的扭曲级原语来最大限度地减少针对 L2 的原子操作数量,从而显着提高吞吐量。

3.1.3 Rendering Efficiency-渲染效率

        实时渲染是基于高斯的方法的核心优势之一。一些提高存储效率的作品可以同时提高渲染性能,例如,减少高斯基元的数量。在这里,我们讨论有助于这些进步的其他工作。

        训练 3DGS 后,[29] 的工作涉及根据空间邻近性和对最终渲染 2D 图像的潜在影响。 此外,这项工作引入了专门的硬件架构来支持该技术,与 GPU 相比,实现了 10.7 倍的加速。

        GSCore [30]提出了一种硬件加速单元,用于优化辐射场渲染中 3DGS 的渲染管线。在 GSCore 中实施这些技术可使移动 GPU 平均加速 15.86 倍。

3.2 Photorealism-精细化与稠密化

        Photorealism也是一个值得关注的话题[31]。3DGS有望在各种场景下实现逼真的渲染。有些[32]、[33]专注于在其原始设置中进行优化。

        为了减轻对 SfM 初始化的依赖,GaussianPro [32] 引入了联合 2D-3D 训练的创新范例。基于 3D 平面定义和patch匹配方法,它提出了一种渐进的高斯传播策略,该策略利用3D视图和投影关系的一致性来优化渲染的2D深度和法线贴图。在几何过滤和选择过程之后,优化后的深度图和法线图被用于稠密化和监督,最终实现精确的几何表示

        FreGS [33] 将监督过程转换到频域,并利用 2D 离散傅里叶变换的幅度和相位属性来减轻 3DGS 中的过度重建。 基于这个想法,FreGS 引入了频域引导的粗到精退火技术来消除不需要的伪影

        多尺度渲染性能的急剧下降也是一个值得关注的话题

        这项工作muti-scale gs[34]首先分析了低分辨率和远距离绘制中频域混叠的原因,利用多尺度高斯来解决这个问题。然后,定义像素覆盖以反映与当前像素大小相比的高斯大小。基于这一概念,它识别小高斯,并将其聚合成较大的高斯,用于多尺度训练和选择性渲染。

        MIP-Splting[35]同样从采样率的角度解决了这个问题,它引入了基于奈奎斯特定理的高斯低通滤波器,以根据所有观测样本的最大采样率来约束3D高斯频率。为了解决混叠和膨胀伪影,MIP-Splting用2D MIP滤镜取代了传统的2D膨胀滤镜。与训练阶段的修改不同,SA-GS[36]在测试期间仅通过2D比例自适应滤波器操作,使其适用于任何预先训练的3DG。

        其他工作试图重建具有挑战性的场景,如反光表面[37]、[38]、[39]和重光照[40]。

        GaussianShader [37] 通过采用混合颜色表示并集成镜面 GGX [41] 和法线估计模块来重建反射表面,其中包含漫反射颜色、直接镜面反射以及解释散射和间接光等现象的残余颜色分量。 此外,GaussianShader 在训练过程中引入了 3DGS 中的着色属性和法线几何一致性约束。

        Mirror-3DGS [38]添加了可学习的镜像属性来确定镜像的位置,并引入了虚拟镜像视点来帮助基于原始 3DGS 重建镜像场景。 并且,SpecGaussian [39] 用各向异性球面高斯替换了原始 3DGS,以构建具有镜面和各向异性分量的场景,并引入基于锚点的表示 [26] 以提高效率。

        可重新照明 3D 高斯 (R3DG) [40] 表示使用可重新照明点的 3D 场景,每个点都以法线方向、BRDF 参数和入射照明为特征,其中入射光被分解为具有与视图相关的可见性的全局和局部分量。 然后,在 R3DG 中设计了一种基于包围体层次结构的新颖的基于点的光线追踪技术,以实现高效的可见性烘焙和具有精确阴影效果的实时渲染。

        DeblurGS [42] 解决了由严重模糊引起的相机姿势不准确的挑战, 通过估计每个模糊观察的 6 自由度 (6-DoF) 相机运动并合成相应的模糊渲染来优化清晰的 3D 场景。 它还引入了高斯致密退火策略以确保训练稳定性。

3.3 Generalization and Sparse Views-泛化性与稀疏视角

        长期以来,稀疏视图设置下的泛化和重建挑战一直引起学术界的广泛关注。隐式表示(如NeRF)和显式表示(如3DGS)在实际应用中都面临巨大的障碍,因为需要对每个场景进行重新训练,并且对密集样本输入的需求很高。

3.3.1 Generalizable 3D Gaussian Splatting-可泛化3DGS

        现有的通用 3D 重建或新颖的视图合成任务的目标是利用广泛的辅助数据集来学习与场景无关的表示。 在 NeRF [43]、[44]、[45] 的研究中,这个过程通常涉及输入少量(1-10)张具有相邻姿态的参考图像来推断目标图像。 辐射场充当媒介,有效地消除了显式场景重建的需要,并将任务转化为与场景无关的新颖视图合成问题。

        相比之下,3DGS的显式表示导致了大量的工作,这些工作专注于使用参考图像直接推断出每个像素的相应高斯基元,随后这些基元被用于从目标视图渲染图像。为了实现这一目标,Splatter Image [46]等早期作品提出了一种将图像转换为高斯属性图像的新颖范式,从而预测与每个像素对应的高斯基元。 然后将该范例扩展到多个参考图像,以获得更好的渲染性能。

        然而,与NeRF中的泛化工作不同,可泛化3DGS的训练难度显着增加。不可微分致密化等操作可能会对泛化训练过程产生负面影响。为了应对这些挑战,pixelSplat[47]旨在预测使用多视几何的极线变换[44]提取的特征深度的概率分布,并对该分布进行采样以替换不可微分量。

        此外,基于多视图立体(MVS)的方法在场景重建和新颖视图合成方面始终取得了显着的成功,特别是通过引入成本量,增强了网络的空间理解。 与 MVSNeRF [48] 中的方法类似,MVSplat [49] 提出使用 3D 空间中的平面扫描来表示成本量,并预测稀疏参考输入中的深度,从而精确定位高斯基元的中心。 这种方法为新颖的视图合成提供了有价值的几何线索。

        此外,一些研究[50]、[51]侧重于引入三平面来实现泛化能力。

        工作[50]介绍了基于参考特征的点云表示解码器和三平面表示解码器。 通过并行解码,该工作建立了一种将显式点云与隐式三平面场相结合的混合表示,使高斯解码器能够在位置查询后直接预测高斯属性。 基于相似的表示,AGG [51]引入了基于伪标签的初始化方法和多阶段训练策略。 该策略包括粗略高斯生成,然后使用参考图像特征进行超分辨率,从而产生详细的输出。

3.3.2 Sparse Views Setting-利用深度信息

        从稀疏输入中重建提出了重大挑战,其中3DGS的方法与NeRF的方法基本相似,旨在开发新的正则化策略并整合补充信息,如深度数据。

        Chung et al. [52]建议采用单目深度估计模型来预测深度​​图,随后使用 SfM [53] 对其进行细化以获得精确的深度范围。 此外,他们的工作还结合了深度平滑度损失和两种针对样本有限的场景量身定制的修改技术。 在深度监督的基础上,FSGS [54]引入了一种邻近引导的高斯上采样方法来增加数量,并通过 2D 先验模型集成新的伪视图,以进一步减轻过度拟合。

        随后,Touch-GS [55] 在机器人感知应用中通过触觉传感扩展了这一范式。 与单目深度信息对齐后,触觉传感数据基于隐式表面表示有效预测相应的深度和不确定性图,用于增强初始化和优化过程。

        此外,DNGaussian [56]从正则化的角度探讨了该问题,提出了两种不同的正则化:硬深度和软深度,以解决场景几何的退化问题。 然后,DNGaussian 引入了全局和局部深度归一化方法,以增强对细微局部深度变化的敏感性。

        一些研究主要集中在初始化和训练策略上。GaussianObject[57]介绍了一种基于Visual Hull的初始化策略,以及一种利用距离统计数据消除漂浮物的优化方法。此外,GaussianObject设计了一个高斯修复模块,该模块包括数据采集、训练和推理范式,从而利用预训练模型来解决稀疏视点条件下的遮挡和信息丢失问题

4 APPLICATIONS OF 3D GAUSSIAN SPLATTING

        3DGS因其效率和逼真的渲染而在各种应用领域表现出色,其中包括数字人体重建,人工智能生成内容(AIGC)和自动驾驶等。基于先前的探索,3DGS可以直接作为核心技术应用于不同的研究领域,有效地取代传统的3D表示。

4.1 Human Reconstruction-数字人

        3DGS在数字人类相关任务中的应用,包括人类重建,动画和人类生成,已经在研究界引起了广泛的关注。最近的作品可以根据重建的部分进行分类。

4.1.1 Body Reconstruction-人体

        人体重建主要是从多视角或单目视频中重建可变形的人体化身,并提供实时渲染。我们在表1中列出了近期作品的比较。大多数工作[58],[60],[61],[62],[63]更喜欢使用预先构建好的人类模型,如SMPL [66]或SMPLX [67]作为强先验知识。然而,SMPL仅限于引入关于人体本身的先验知识,因此对服装和头发等外部特征的重建和变形提出了挑战。

        对于外观的重建,HUGS [60]仅在初始阶段使用SMPL和LBS,允许高斯基元偏离初始网格以准确地表示服装和头发。Animatable Gaussians [65]使用可以拟合外观的模板作为指导,并利用StyleGAN来学习姿势相关的高斯映射,增强了对详细动态外观建模的能力。GaussianAvatar [61]采用了一种捕获粗略全局外观的功能,该功能与姿势功能集成在一起。这些组合的特征然后被输入到解码器中以预测高斯基元的参数。3DGS-Avatar [63]引入了一个非刚性变换模块,该模块利用多级散列网格编码器对3D位置进行编码,并将其与潜在的姿势连接起来,以形成浅层MLP网络的输入,该网络预测高斯位置的偏移,比例和某些姿势下的旋转。

        一些研究将问题空间从3D投影到2D,从而降低了复杂性,并能够利用完善的2D网络进行参数学习。

        ASH [64]提出通过变形网络生成运动相关的模板网格,并从该网格预测运动相关的纹理图。然后,2D网络通过生成的纹理图预测高斯参数。类似地,Animatable Gaussians [65]将模板网格人体模型从规范空间投影到两个2D平面(正面和背面)上,学习这些空间中的高斯属性。

        GPS-Gaussian [59]通过引入高斯参数映射来解决可推广的人类新视图合成,该高斯参数映射可以直接回归而无需每个受试者优化。这种方法由深度估计模块补充,该模块将2D参数图提升到3D空间。

4.1.2 Head Reconstruction-头部

        在人类头部重建领域,与大多数使用SMPL作为强先验的管道一样,GaussianAvatars [68]的工作集成了FLAME [69]网格,为3DGS提供先验知识,以实现上级渲染质量。这种方法可以补偿FLAME网格无法准确描述或跟踪的细节和元素。然而,Gaussian Head Avatar [70]批评了使用FLAME网格和线性混合蒙皮(LBS)进行面部变形,指出这些相对简单的线性操作难以捕捉复杂面部表情的细微差别。相反,它建议采用MLP来直接预测高斯从中性到目标表达式的转换。这种方法有助于渲染高分辨率头部图像,实现高达2K的分辨率。

4.1.3 Others

        此外,3DGS还在其他与人类相关的领域推出了创新解决方案。GaussianHair [71]专注于人类头发的重建,使用链接的圆柱形高斯建模。同时,它专门引入了GaussianHair散射模型,进一步增强了对结构的捕捉,让重建的链在不同光照条件下都能高保真渲染。

        在Gaussian Shadow Casting for Neural Characters[72]中提出的研究重点是各种视角和运动下的阴影计算,首先使用NeRF从输入的人体姿势和训练图像中重建密度,法线和阴影值的体积。随后,它将NeRF输出密度图与各向异性高斯的集合拟合。高斯表示支持更高效的光线跟踪和延迟渲染技术,取代了传统的采样过程,从而加快了阴影的计算。

        此外,一些研究[73],[74]已经探索了3DGS与生成模型的集成,这将在4.2节中讨论。

4.2 Artificial Intelligence-Generated Content (AIGC)

        人工智能生成的内容(AIGC)利用人工智能技术自主生成内容。近来,用于基于3DGS生成3D表示的方法激增。在本章中,我们将根据提示的类型和它们生成的对象对当代算法进行系统分类。这些类别包括图像到3D对象生成、文本到3D对象生成、多对象和场景生成以及4D生成(XYZ − T),如图4所示。下面,我们将对这些类别中的每一个类别的相关工作进行概述。

4.2.1 Text to 3D Objects

        目前,大量的研究致力于SDS[79],它在这一背景下起着至关重要的作用,旨在使用蒸馏范例直接生成具有多视图一致性的3D表示。为了进一步阐明DSD,我们将3D表示表示为θ,将可微渲染过程表示为g(·),从而将渲染图像表示为g(θ)。DREAMFUSION[79]确保来自每个摄像机视点的渲染图像与来自预训练扩散模型φ的可信样本保持一致。在实践中,他们利用现有扩散模型的分数估计函数ϵϕ(xt,t,y),其中ϵϕ基于噪声图像xt和文本条件y预测采样噪声。因此,θ的分数蒸馏损失的梯度为:

后来的工作广泛采用了这一点,或其改进的变体,作为对发电的主要监督。

        一些工作[75]、[80]、[81]致力于改进将分数蒸馏损失应用于3DGS的框架。

        DreamGaussian [75] 是一项将扩散模型与 3DGS 集成的早期工作,采用两阶段训练范例。 该方法以分数蒸馏采样 (SDS) 为基础,通过从 3DGS 中提取显式网格表示来确保生成模型的几何一致性,并细化 UV 空间中的纹理以提高渲染质量。 陈等人的工作。 同时进行的[80]引入了Point-E [82](或其他文本到点云模型)以及3D分数蒸馏损失,以指导第一阶段的3D几何生成。 在第二阶段,采用基于密度的致密化来进一步细化发电质量。 类似地,GaussianDreamer [81]采用了相同的基本概念; 然而,它的独特之处在于采用噪声点增长和颜色扰动等策略来解决初始化期间点云密度不足的问题。

        然而,寻找模式的分数精馏范式经常导致生成结果的过饱和、过度平滑和缺乏细节,这在关于神经网络的相关工作中已经得到了广泛的讨论

        高斯扩散[84]引入了变分高斯来缓解2D扩散模型的不稳定性,并引入了结构化噪声来增强3D一致性。

        还有一些工作专注于改进 SDS。

        LucidDreamer[85]解决了传统SD固有的过度平滑和采样步骤不足的挑战。通过引入确定性扩散轨迹(ddim[86])和基于区间的分数匹配机制(等式9),它实现了卓越的质量和效率。随后,Hyper-3DG[87]通过引入hypergraph[88]在LucidDreamer[85]的基础上构建,以探索拼接的高斯基元之间的关系。

        同样,LODS[89]分析了训练和测试过程之间的内在不一致性,以及大的无分类器引导(CFG)在SDS中引起的过度平滑效应。为了应对这些挑战,LODS提出了一组额外的可学习的无条件嵌入和LoRA用于对齐分布。

        在AIGC中,分数蒸馏损失也可以被替代:

        IM-3D[91]确定了与分数蒸馏损失相关的优化困难。因此,它试图微调现有的图像到视频生成模型,以支持生成多视点空间一致的图像(视频)。这些生成的多视点图像然后被用作3DGS生成的监督。类似地,LGM[92]提出了一种从文本或单个图像生成3DG的新范例。它利用已有的网络生成目标的多视角图像,并使用基于非对称U-Net的具有cross-view self-attentions的体系结构重建不同输入下的3D模型。

        作品[93],[94]的目的是只使用前馈网络来生成,而不需要特定于场景的培训。

        BrightDreamer[93]的目标是将3.3.1中描述的概括性表示合并到文本到3D的生成中,从而能够直接创建3D模型,而不需要在特定场景中重新训练。BrightDreamer在固定初始化后预测位置偏移,并为提取的文本特征引入文本制导三平面生成器来预测3DGS的其他属性,从而实现任意文本到3D模型的转换。GVGEN[94]专注于一种没有三平面的前馈设置,提出了GaussianVolumes作为一种结构化的轻量级表示,用于泛化生成。基于这种表示,GVGEN通过训练好的扩散模型生成一个高斯距离场,并利用它来指导相应属性的预测。

        一些工作[73]、[74]也试图将这种生成范式应用于数字人类生成等领域。

        HumanGaus[74]结合了RGB和深度渲染来改进SDS,从而共同监督优化人体外观和几何形状的结构知觉,此外,它还引入了退火负提示指导和基于缩放的修剪策略来解决过饱和和浮动伪影。 除了大量依赖扩散模型的工作之外,Abdal 等人的工作。 [73] 提出了一种将 3DGS 与 Shell Maps [95] 和 3D 生成对抗网络 (GAN) 框架相结合的新颖范式。 通过利用高斯 Shell Maps,这种方法可以快速表示人体及其相应的变形。

4.2.2 Image to 3D Object

        与 NeRF 的工作类似,最近的研究 [77]、[96] 也专注于从单个图像生成整个 3DGS。

        按照与DreamGaussian[75]类似的过程,Repaint123[77]将这个过程分为粗略优化阶段和精细优化阶段。在粗略阶段,它使用预先训练好的Zero-123[97]作为监督,并使用SDS对粗略的3DGS进行优化。在细化阶段,Repaint123从第一阶段提取网格表示,并提出结合深度和参考图像来指导新视图图像的去噪过程,以确保不同视图之间的一致性。对于视图之间的重叠和遮挡区域,Repaint123使用可见性感知的自适应重绘方法来提高这些区域的重绘质量,然后用于微调3DGS。

        FDGaussian [96]提出了一种更直接的方法,将整个生成过程分为多视图图像生成和 3DGS 重建。 在生成阶段,FDGaussian通过解耦正交平面从图像中提取3D特征,优化基于Zero-123[97]。 在重建阶段,通过基于高斯间距离的控制优化和基于高斯距离的融合策略,提高了3DGS的效率和性能。

4.2.3 Multi-Object and Scene Generation

  • 14
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值