【3D分割】Segment Anything in 3D with Radiance Fields

追风赶月。

于 2024-09-27 20:55:18 发布

阅读量1.4k

点赞数 15

分类专栏：论文阅读文章标签： 3d 人工智能 pytorch 深度学习

本文链接：https://blog.csdn.net/cjy_colorful0806/article/details/142602157

版权

论文链接：Segment Anything in 3D with Radiance Fields

代码链接：GitHub - Jumpat/SegmentAnythingin3D: Segment Anything in 3D with NeRFs (NeurIPS 2023)

作者：Jiazhong Cen, Jiemin Fang, Zanwei Zhou, Chen Yang, Lingxi Xie, Xiaopeng Zhang, Wei Shen, Qi Tian

发表单位：上海交通大学、华为公司、华中科技大学启蒙学院 .

会议/期刊：NeurIPS 2023

一、研究背景

计算机视觉领域一直在追求一个可以在任何场景下执行基本任务（如分割）的视觉基础模型。在这些研究中，Segment Anything Model (SAM) 是代表性工作之一，因为它在2D图像中的分割表现非常出色。然而，将SAM的能力扩展到3D场景仍然是一个未解决的难题。作者指出，尽管可以复用SAM的管道来采集和半自动注释大量3D场景数据，但由于3D数据的获取和密集注释远比2D复杂，采用这种数据驱动的方法变得不切实际。

获取并标注3D数据集的复杂性导致3D场景中数据稀缺，同时训练3D模型的计算开销大。这使得在3D场景中使用类似于SAM的分割模型成为一项巨大的挑战。传统的做法可能是从零开始建立一个3D基础模型，但这并不经济。

论文的作者意识到一个替代且高效的解决方案：通过3D表示模型为2D基础模型（即SAM）提供3D感知能力，而不是从头开始构建3D基础模型。为此，他们借鉴了辐射场（Radiance Fields）的理念，提出了一个名为Segment Anything in 3D (SA3D) 的新方法。

辐射场模型作为一种新颖的3D表示方式，通过可微渲染技术将多视图的2D图像与3D空间连接起来。该研究提出将SAM与辐射场整合，以促进3D分割。

论文的主要贡献总结如下：

提出了SA3D框架：该框架是一个创新性的3D分割方法，结合了2D分割基础模型Segment Anything Model (SAM)与辐射场模型（如NeRF和3D Gaussian Splatting），无需重新设计或重新训练即可执行3D分割任务。SA3D通过2D分割模型的扩展，提供了一种高效的方式，将2D图像信息提升到3D场景中，实现准确的3D分割。
设计了掩码逆向渲染和自提示机制：该方法包含两大核心步骤：掩码逆向渲染用于将2D分割结果投影到3D空间，自提示机制通过在不同视角下生成可靠的提示点，进一步优化分割结果。这一双重过程不断迭代，最终生成精准的3D掩码。
引入了特征缓存机制：为了加快推理速度，SA3D引入了特征缓存机制，通过预缓存SAM提取的特征显著提升了分割速度，特别是在高效表示如3D Gaussian Splatting的场景下，可将分割速度缩短至2秒内。
适应不同类型的辐射场：论文中展示了SA3D在不同类型的辐射场下的适应能力，证明了该方法的通用性，能够处理从前向视角到360度全景场景的多种复杂场景。
扩展了实验评估：论文提供了大量实验结果，包括消融研究和对各组件的深入分析，进一步展示了SA3D在不同场景和数据集上的表现，验证了该方法的有效性和高效性。

给定一个预先训练的辐射场，SA3D会从一个将单个渲染视图作为输入，并输出3D分割结果针对特定目标。

二、预备知识总结

2.1 神经辐射场（NeRF）

NeRF（Neural Radiance Fields）是用于表示3D场景的连续函数，通过多层感知机（MLP）将空间坐标 $x \in \mathbb{R}^3$ 和视角方向 $d \in \mathbb{S}^2$ 映射到相应位置的颜色 $c \in \mathbb{R}^3$ 和体积密度 $\sigma \in \mathbb{R}$ 。渲染图像时，NeRF通过光线投射技术生成每个像素点的颜色，公式如下：