1. 个人理解
和Gaussianformer都是ECCV的文章,都提出了给每一个gaussian加入一个元素来表明这个高斯属于某个类被,或者某个实体,也是本文的核心贡献。
本文可实现删除,换位置,修复等多个任务。
2. 论文原文
Abstract.
最近的 Gaussian Splatting 实现了 3D 场景的高质量和实时新颖视图合成。然而,它仅仅集中于外观和几何建模,而缺乏细粒度的对象级场景理解。为了解决这个问题,我们提出了高斯分组,它扩展了高斯分布以联合重建和分割开放世界 3D 场景中的任何内容。我们用紧凑的身份编码增强每个高斯,允许高斯根据其对象实例或 3D 场景中的东西成员身份进行分组。我们没有采用昂贵的 3D 标签,而是利用分段任意模型 (SAM) 的 2D 掩模预测以及引入的 3D 空间一致性正则化来监督可微渲染期间的身份编码。与隐式 NeRF 表示相比,我们表明离散和分组 3D 高斯可以以高视觉质量、精细粒度和效率重建、分割和编辑 3D 中的任何内容。基于高斯分组,我们进一步提出了局部高斯编辑方案,它表明在多功能场景编辑应用程序中的功效,包括 3D 对象移除、修复、着色、风格转换和场景重组。
1 Introduction
开放世界 3D 场景理解是一项重要挑战,对机器人、AR/VR 和自动驾驶具有深远影响。给定一组摆好姿势的 RGB 图像,我们的目标是学习有效的 3D 表示,联合重建和分割 3D 场景中的任何内容。该表示应轻松支持各种下游场景编辑应用程序。例如,在图 1 中,可以轻松删除或修复场景的 3D 对象,并且可以通过交换对象位置来重新组合场景。
虽然 SAM 及其变体 [14,17,64] 在 2D 场景理解方面取得了显着进展,但它们向 3D 的扩展受到了限制。这主要是由于创建 3D 场景数据集的可用性和劳动密集型过程。现有方法 [8, 42] 依赖于手动标记的数据集,这些数据集成本高昂且范围有限,或者需要精确扫描的点云 [37, 47] 作为输入。这阻碍了能够快速泛化各种现实世界场景的 3D 场景理解方法的发展。
通过多视图捕获,现有的基于 NeRF 的方法 [16,19,28,44] 提升 2D 掩模或通过神经场渲染提取 CLIP [39] / DINO [3] 特征。然而,由于 NeRF 的隐式和连续表示,这些方法需要昂贵的随机采样,并且优化计算量大。此外,很难直接调整基于 NeRF 的方法来进行下游本地编辑任务 [19],因为学习的神经网络(例如 MLP)无法轻松分解 3D 场景中的每个部分或模块。几种方法 [4, 43] 将 NeRF 或稳定扩散 [41] 与 SAM 掩模结合起来,但它们只关注单个对象。
作为 NeRF 的替代方案,最近出现的 3D Gaussian Splatting [15] 显示了令人印象深刻的重建质量以及高训练和渲染效率。它用一系列彩色和明确的 3D 高斯曲线表示 3D 场景,这些高斯曲线被渲染到相机视图中以进行新颖的视图合成。然而,高斯分布