3D高斯溅射(3DGS)由于其高质量的渲染、效率和低内存成本,最近在新型视图合成领域得到了广泛的应用。它的应用跨越了虚拟现实、增强现实和机器人技术等。但该方法假设输入图像是静态没有噪声的,往往难以满足。例如,用手机随意拍摄的图像通常包含混乱的动态物体,或瞬态物体。因此,由于总是存在许多瞬态遮挡,因此很难对场景进行建模。从技术上讲,3DGS能够有效地建模静态场景,因为图像中的静态对象满足不同视点之间的几何一致性约束。然而,瞬态对象并不遵循这个假设。如果在训练中包含瞬态对象的图像被简单地使用于3DGS,这种变化可能会导致难以实现单个高斯表示的相干混合,从而可能导致伪影或不准确性。
一、HybridGS:用2D和3DGS解耦瞬态和静态场景(未开源)
标题:HybridGS: Decoupling Transients and Statics with 2D and 3D Gaussian Splatting
来源:中科大、浙大、上交
地址:https://gujiaqivadin.github.io/hybridgs/
摘要:HybridGS对每幅图像的瞬态对象使用二维高斯分布,并对整个静态场景保持传统的三维高斯分布。瞬态对象偶尔出现,因此从单一视图将它们建模为平面对象,用二维高斯表示。我们的新表示从基本观点一致性的角度分解场景,使其更加合理。此外,我们提出了一种新的多视图调节的3DGS监督方法,利用来自共可见区域的信息,进一步加强了瞬态和静态之间的区别。然后,我们提出了一个直接而有效的多阶段训练策略,以确保在各种设置下进行稳健的训练和高质量的视图合成。
相关方法。GaussianImage[48]利用像素平面上的二维高斯图像来实现较好的重建质量,同时提供增强的压缩和加速渲染能力。Image-GS [49]通过自适应分配和逐步优化一组二维高斯分布来拟合目标图像来创建内容自适应图像表示。
2D Surfels是通过二维曲面建模、三维空间的ray-splat intersection, 和 volumetric integration实现 perspective-correct splatting,GaussianImage 中的2D Gaussian是一种二维空间内灵活、紧凑、内容自适应的图像表示。
3D GS表示:
2D GS表示:
给定一组输入图像{ I k ∣ k = 1 , 2 , . . . , N I_k|k = 1,2,...,N Ik∣k=1,2,...,N}以及位姿pose,目标是合理地解耦瞬态 I t I_t It和静态 I s I_s Is如下:
热身阶段,我们首先训练一个基本的3DGS来捕获静态元素。接下来是二维和三维高斯分布的迭代训练,其中我们的瞬态和静态结合使用带有掩模的α混合策略,以产生最终的渲染图。该掩模为迭代训练阶段的三维高斯分布提供了指导。联合训练进一步优化分解结果。
3D高斯重建静态场景 。COLMAP 的初始化点云只能表示场景中多视图一致性的区域,因此三维高斯分布倾向于重建静态场景,如建筑、地面。瞬态场景中,由于RGB损失的约束,连续训练可能会导致瞬态对象过度拟合到高斯核中。与以前每次迭代只栅格化和监督一幅图像的方法不同,我们 (1)将每次迭代的图像数量增加到K,使梯度反向传播可以同时考虑来自多个视图的互信息 。这种批处理输入允许每个优化步骤利用多视图来区分和推断瞬态和静态元素。 (2)采用稀疏训练计划,只关注在交叉视图截锥体的共可见区域内的三维高斯矩阵的优化 ,提高训练重点并降低计算成本。
2D高斯重建瞬态物体 。不同于其他利用语义特征的方法不同, (1) 2DGS已被证明是一种有效的图像表示方法。(2)2DGS的形成和栅格化过程与3DGS非常相似,允许两者在一个统一的框架内表达。(3)将不满足多视图几何一致性的三维对象退化为二维表示,可以在一个fundamental level上将瞬态从静态场景解耦。
二维高斯栅格化成一个带有瞬态掩模 M ^ t \hat{M}_t M^t的图像 I ^ t \hat{I}_t I^t,用于建模不确定性(因为在用3DGS建模场景后,2DGS负责学习图像的残差部分),每个像素 y 2 d y_{2d} y2d计算为:
多阶段训练方案 :1.warm-up 预训练,使用3DGS捕捉静态场景(稠密化,λ为0.2):
2.迭代训练。训练一个分支时,另一个分支梯度反向传播被关闭:
3.联合微调。微调瞬态mask,并减少渲染图像和真实图像之间的误差(β为0.2):
数据集。NeRF on-the-go(室内和室外,干扰物比例从5%到30%)和RobustNeRF(不同类型干扰物场景)。实验细节。HybridGS是在开源的gsplat 和Taming-3DGS上开发的。视图数量K是4,从1k步的热身开始;迭代训练包括2DGS的10k步和3DGS的1k步。联合训练为30k步。整个训练过程大约需要0.18个GPU小时。PyTorch的GPU单个NVIDIA RTX 4090上进行。
表4对NeRF on-the-go数据集的二维高斯数的消融研究,最终实验选择10k最优数。瞬态mask:得益于我们的方法对瞬态对象的显式建模,我们可以在不引入任何分割网络或其他预训练特征的情况下获得瞬态掩模。图6:即使在强遮挡下也有效地学习了瞬变元素的RGB和mask,同时保持了静态元素的鲁棒性。
二、T-3DGS:去除三维场景重建中的瞬态对象`
标题:T-3DGS:去除三维场景重建中的瞬态对象
来源:Skoltech, Russia Robotics Center, Russia 3KAUST, Saudi Arabia 4AIRI, Russia
地址:https://transient-3dgs.github.io/
摘要。本文从输入视频中去除瞬态对象,利用Gaussian Splatting进行三维重建。主要由以下步骤组成:第一步,提出一种无监督的训练策略,基于其不同的训练行为,区分瞬态对象和静态场景部分在三维高斯溅射重建中的分类网络。第二步,结合第一步结果和现成的分割方法,提高瞬态边界质量和稳定性。还提出一种跟踪视频中的对象的策略。
2.1 Transient Mask Prediction(TMP)
无监督TMP,在没有显式监督的情况下识别瞬态干扰物,如图2所示。训练过程包括两个步骤: (1)在保持TMP冻结状态的同时优化3DGS参数,(2)在优化TMP的同时保持3DGS参数冻结状态。每次迭代更新两个模型的权重。参考Wildgaussians和Spotlesssplat,利用预训练好的大模型从图像中提取丰富的语义特征,将瞬态检测问题重新表述为语义特征分类任务,而不是直接的像素级预测,能够基于高级语义理解来做出决策。
特征提取。分别从输入图像$I¥和相应的渲染图 I ^ \hat{I} I^中提取DINO v2特征,分别生成特征图 f f f, f ^ \hat{f} f^:(1)其自监督训练使健壮的语义理解没有类的偏见,(2)展示了强大的性能在区分对象边界和语义区域甚至以前看不见的对象,(3)与DIFT [40]特性相比,DINO v2提供更快的计算时间,使它更实用的迭代训练过程。
Transient Probability Masks。TMP模块实行逻辑回归计算特征概率mask: P f = σ ( W f ) P^f = σ(Wf) Pf=σ(Wf), σ ( ⋅ ) σ(·) σ(⋅)为sigmoid函数,W表示TMP权重。由于特征是patch(14×14),使用双线性插值上采样到原始图像分辨率,分别得到像素级瞬态掩模 P P P和 P ^ \hat{P} P^。
TMP 损失函数:
RGB损失识别渲染与真实图像不同区域( 动态对象通常会在渲染图像和真实图像之间产生更大差异。通过用(1−P)对这些差异进行加权,鼓励分类器将更高的瞬态概率分配给显示显著重建错误的区域 );正则化项促进了稀疏预测,有助于产生紧凑的、聚焦的mask并减少假阳性;Egolifter,Wild-gs 使用了 L R G B L_{RGB} LRGB和 λ p r i o r L r e g λ_{prior}L_{reg} λpriorLreg的和,没有一致性损失,公式(2)的损失在重建几何上复杂的静态结构时表现出明显的局限性。在这种情况下,即使是静态对象也会由于重建的挑战而产生超过 λ p r i o