【Gaussian Grouping: Segment and Edit Anything in 3D Scenes】阅读笔记

最新推荐文章于 2025-01-21 22:25:45 发布

Nepethens

最新推荐文章于 2025-01-21 22:25:45 发布

阅读量1.8k

点赞数 19

文章标签： 3d

本文链接：https://blog.csdn.net/Never_say_no_key/article/details/143197111

版权

1. 个人理解

和Gaussianformer都是ECCV的文章，都提出了给每一个gaussian加入一个元素来表明这个高斯属于某个类被，或者某个实体，也是本文的核心贡献。
本文可实现删除，换位置，修复等多个任务。

2. 论文原文

Abstract.

最近的 Gaussian Splatting 实现了 3D 场景的高质量和实时新颖视图合成。然而，它仅仅集中于外观和几何建模，而缺乏细粒度的对象级场景理解。为了解决这个问题，我们提出了高斯分组，它扩展了高斯分布以联合重建和分割开放世界 3D 场景中的任何内容。我们用紧凑的身份编码增强每个高斯，允许高斯根据其对象实例或 3D 场景中的东西成员身份进行分组。我们没有采用昂贵的 3D 标签，而是利用分段任意模型 (SAM) 的 2D 掩模预测以及引入的 3D 空间一致性正则化来监督可微渲染期间的身份编码。与隐式 NeRF 表示相比，我们表明离散和分组 3D 高斯可以以高视觉质量、精细粒度和效率重建、分割和编辑 3D 中的任何内容。基于高斯分组，我们进一步提出了局部高斯编辑方案，它表明在多功能场景编辑应用程序中的功效，包括 3D 对象移除、修复、着色、风格转换和场景重组。

1 Introduction

开放世界 3D 场景理解是一项重要挑战，对机器人、AR/VR 和自动驾驶具有深远影响。给定一组摆好姿势的 RGB 图像，我们的目标是学习有效的 3D 表示，联合重建和分割 3D 场景中的任何内容。该表示应轻松支持各种下游场景编辑应用程序。例如，在图 1 中，可以轻松删除或修复场景的 3D 对象，并且可以通过交换对象位置来重新组合场景。

虽然 SAM 及其变体 [14,17,64] 在 2D 场景理解方面取得了显着进展，但它们向 3D 的扩展受到了限制。这主要是由于创建 3D 场景数据集的可用性和劳动密集型过程。现有方法 [8, 42] 依赖于手动标记的数据集，这些数据集成本高昂且范围有限，或者需要精确扫描的点云 [37, 47] 作为输入。这阻碍了能够快速泛化各种现实世界场景的 3D 场景理解方法的发展。

通过多视图捕获，现有的基于 NeRF 的方法 [16,19,28,44] 提升 2D 掩模或通过神经场渲染提取 CLIP [39] / DINO [3] 特征。然而，由于 NeRF 的隐式和连续表示，这些方法需要昂贵的随机采样，并且优化计算量大。此外，很难直接调整基于 NeRF 的方法来进行下游本地编辑任务 [19]，因为学习的神经网络（例如 MLP）无法轻松分解 3D 场景中的每个部分或模块。几种方法 [4, 43] 将 NeRF 或稳定扩散 [41] 与 SAM 掩模结合起来，但它们只关注单个对象。

作为 NeRF 的替代方案，最近出现的 3D Gaussian Splatting [15] 显示了令人印象深刻的重建质量以及高训练和渲染效率。它用一系列彩色和明确的 3D 高斯曲线表示 3D 场景，这些高斯曲线被渲染到相机视图中以进行新颖的视图合成。然而，高斯分布