论文阅读：SparseLGS: Sparse View Language Embedded Gaussian Splatting

最新推荐文章于 2025-05-08 17:24:59 发布

_ZCWzy

最新推荐文章于 2025-05-08 17:24:59 发布

阅读量775

点赞数 19

文章标签： 3d

本文链接：https://blog.csdn.net/m0_48319749/article/details/144268678

版权

Abstract

图1所示。我们使用我们的方法和LangSplat[30]从稀疏、无posefree输入呈现语义渲染。我们的方法在多视图一致性和渲染质量上都优于LangSplat，产生更准确和视觉连贯的结果。

最近，一些研究将3D高斯与语言嵌入相结合，以获得用于开放词汇3D场景理解的场景表示。虽然这些方法表现良好，但它们本质上需要非常密集的多视角输入，这限制了它们在现实场景中的适用性。在这项工作中，我们提出了SparseLGS，以解决使用无姿态和稀疏视角输入图像进行3D场景理解的挑战。我们的方法利用基于学习的密集立体模型来处理无姿态和稀疏输入，并采用三步区域匹配方法来解决多视角语义不一致问题，这对于稀疏输入尤为重要。与直接学习高维CLIP特征不同，我们提取低维信息并建立双射，以避免过高的学习和存储成本。我们在语义训练期间引入重建损失，以改善高斯位置和形状。据我们所知，我们是第一个使用稀疏无姿态输入解决3D语义场问题的。实验结果表明，与之前使用密集输入的最先进方法相比，SparseLGS在使用较少输入（3 - 4个视角）重建语义场时能达到相当的质量。此外，当使用相同的稀疏输入时，SparseLGS在质量上明显领先，并且大幅提高了计算速度（加速5倍）。项目页面：[https://ustc3dv.github.io/SparseLGS](https://ustc3dv.github.io/SparseLGS)

1. Introduction

        在本文中，我们提出稀疏视图语言嵌入式高斯飞溅（SparseLGS）来解决从稀疏视图输入获取3D语言字段的挑战。为了克服传统的现有方法（如COLMAP）在极度稀疏的视图下常常无法进行点云重建的局限性，我们采用了基于学习的密集立体方法MASt3R来估计相机姿势并生成初始点云。
        随后，我们利用SAM和CLIP获得对象级语义结果。在具有密集视图输入的场景中，可以纠正多视图语义中的不一致性，因为视图的丰富性允许准确的信息掩盖少数不正确的信息。
然而，使用稀疏输入（例如，只有3-4个视图），不正确的结果可能会扭曲正确的结果。为了解决这个问题，我们采用了一种三步多视图语义对齐方法，利用像素匹配和区域融合等技术来实现精确的对齐。为了减轻原始特征重建过程中的信息损失，我们在低维结果和原始CLIP特征之间建立了双射。这允许我们使用基于tile的呈现来获得呈现的语义结果，然后利用双向映射来恢复原始的CLIP特性，从而启用开放语言查询。
        由于语义掩码提供了区域化信息，同一掩码区域内部除边界信息外相同，仅使用语义作为真实值并不能提供足够的几何约束。因此，我们首先使用 RGB 图像训练高斯参数来初始化高斯分布。随后，我们引入语义损失来指导语义场的训练并微调高斯参数。总之，本文的贡献包括：

我们提出了SparseLGS，据我们所知，这是首个探索从稀疏无姿态视图输入重建3D语言场的工作。
我们提出“三步语义多视图匹配”来解决输入视图间语义和掩码的不一致性。此外，我们在原始CLIP特征和降维特征之间建立双射，以防止在原始特征重建过程中出现退化。
在使用RGB图像监督优化高斯参数后，我们在语义场学习过程中保留这种监督，以更好地约束场景几何。这种策略有效地保证了在稀疏输入下所学语义场的3D一致性。

3. Method

图2。我们的方法SparseLGS能够在几分钟内从无姿态的稀疏视图输入生成高质量的语言字段。我们首先利用SAM和CLIP获得对象语义图，然后使用基于学习的立体模型从稀疏输入中导出相机姿势和点云。为了解决视图之间的语义不一致，我们采用了三步多视图语义对齐策略。为了更好地将语义与高斯飞溅相结合，我们在原始CLIP特征和降维特征之间建立了一个双射。在培训过程中，我们结合RGB监督来增强我们所学语言领域的3D一致性。