导读:
3D Gaussian Splatting(3DGS)目前已经在多个领域展现出巨大的应用潜力,尤其是在虚拟现实、增强现实和计算机图形学中。通过使用多视角图像技术,3DGS能够从不同的视角合成出真实世界的三维模型。
尽管3DGS的应用前景广阔,但其实施过程却面临着不少挑战。传统的三维重建方法通常依赖于准确的相机姿态信息,这在实际操作中并不容易获得,而其应用场景往往都处于一个动态或复杂的环境,如何在缺乏精确姿态输入的情况下实现高质量的三维重建,成为了亟待解决的关键问题。
针对上述挑战,作者提出了NoPoSplat的创新方法,它能够从没有位姿的稀疏图像中高效重建三维场景。该模型仅依靠光度损失进行训练,能够实时生成3DGS模型。实验结果表明,在新视角图像的合成质量方面,该方法超越了传统需要姿态信息的方法,特别是在输入图像重叠有限的情况下,展示了出色的重建效果。
1 引入
研究人员解决了从未定位的稀疏视图图像(仅需两个)中重建由3D高斯分布参数化的三维场景的问题,并采用了一种前馈网络。虽然目前一些最先进的通用三维重建方法能够在没有逐场景优化的情况下实现真实感结果,但它们通常需要准确的输入视图相机姿态。这些姿态通常通过结构光重建方法从密集视频中获取,这在实际应用中并不切实际,因为这些方法即使只使用两个帧进行三维重建,也需要密集视频中的姿态。此外,依赖现成的姿态估计方法会增加推理时间,并可能在无纹理区域或图像重叠不足的情况下失败。
最近的一些方法旨在通过将姿态估计与三维场景重建集成到一个单一的流程中来解决这一挑战。然而,这些方法生成的新视角渲染质量往往不及那些依赖已知相机姿态的最先进方法。性能差距源于这些方法在姿态估计和场景重建之间交替的顺序处理。姿态估计中的错误会降低重建质量,进而导致姿态估计的进一步不准确,从而产生累积效应。为了应对这一问题,一些工作展示了完全不依赖相机姿态进行场景重建的可行性,从而消除了姿态估计的需求。他们通过直接预测规范空间中的场景高斯表达,借鉴了最近的三维点云重建方法的成功。
此外,近期的关于3DGS的研究还发现相机的焦距在解决尺度歧义问题中至关重要,因为模型的场景重建仅基于图像外观,而图像外观受到焦距的影响。为了解决这一问题,他们设计并比较了不同的相机内参嵌入方法,最终确定将内参直接转换为特征标记并与输入图像标记连接,可以使网络在预测场景尺度时表现最佳。在成功重建了3DGS之后,将其用于新视角合成和姿态估计。对于姿态估计,他们引入了一种两阶段的流程,首先通过将相关算法应用于高斯中心来获得初步姿态估计,然后通过在估计的姿态下渲染场景,进一步优化与输入视图的对齐。
实验结果表明,这些方法在新视角合成和姿态估计任务中均表现出色。在新视角合成方面,该方法首次证明了在相同数据集和设置下,无需姿态的信息可以优于依赖姿态的方法,特别是在输入图像重叠较小的情况下。在姿态估计方面,他们的方法在多个基准测试中显著超越了现有的技术。同时,这种方法还在处理分布外数据时表现出良好的泛化能力,能够应用于用户提供的图像,以重建基础的三维场景并渲染新视