3D分割里程碑!SAM2Point联合SAM2,首次实现任意3D场景、任意Prompt的分割

945e013daa5a935c286ba4c36aae691f.gif

6b5e6c558948b12a4c2702034cb44e95.png

文章链接:

https://arxiv.org/pdf/2408.16768

在线Demo: 

https://huggingface.co/spaces/ZiyuG/SAM2Point

代码链接:

https://github.com/ZiyuGuo99/SAM2Point

018692e2480325065df44a2e01db2520.png

▲ 图1 SAM2POINT 的分割范式

重点概述:

  1. 无需投影到 2D 的 SAM 2 分割方案:SAM2POINT 通过将 3D 数据体素化为视频格式,避免了复杂的 2D 至 3D 的投影,实现了高效的零样本 3D 分割,同时保留了丰富的空间信息。

  2. 支持任意用户提示(Prompt):该方法支持 3D 点、3D 框和 Mask 三种提示类型,实现了灵活的交互式分割,增强了 3D 分割的精确度和适应性。

  3. 泛化任何 3D 场景:SAM2POINT 在多种 3D 场景中表现出优越的泛化能力,包括单个物体、室内场景、室外场景和原始 LiDAR 数据, 显示了良好的跨领域转移能力。

SAM2POINT,是 3D 可提示分割领域的初步探索,将 Segment Anything Model 2(SAM 2)适配于零样本和可提示的 3D 分割。SAM2POINT 将任何 3D 数据解释为一系列多方向视频,并利用 SAM2 进行 3D 空间分割,无需进一步训练或 2D 至 3D 投影。

SAM2POINT 框架支持多种提示类型,包括 3D 点、 3D 框和 3D Mask,并且可以在多种不同场景中进行泛化,例如 3D 单个物体、室内场景、室外场景和原始激光雷达数据( LiDAR)。在多个 3D 数据集上的演示,如 Objaverse、S3DIS、ScanNet、Semantic3D 和 KITTI,突出了 SAM2POINT 的强大泛化能力。

据我们所知,这是 SAM 在 3D 中最忠实的实现,可能为未来可提示的 3D 分割研究提供一个起点。

75bcabe3787e08b9af805910615b51cb.png

SAM2Point的动机与方法创新

Segment Anything Model(SAM)已经建立了一个卓越且基础的交互式图像分割框架。基于其强大的迁移能力,后续研究将 SAM 扩展到多样的视觉领域,例如个性化物体、医学影像和时间序列。更近期的 Segment Anything Model 2(SAM 2)提出了在视频场景中的印象深刻的分割能力,捕捉复杂的现实世界动态。

95381685c5763adb95d9ecd28f2c58a3.png

▲ 表1:SAM2POINT 与以往基于 SAM 的 3D 分割方法的比较。SAM2POINT 是 SAM 在 3D 中最忠实的实现,展示了在 3D 分割中的卓越实施效率、可提示的灵活性和泛化能力。

尽管如此,如何有效地将 SAM 适应于 3D 分割仍然是一个未解决的挑战。表 1 列举了前期工作的主要问题,这些问题阻碍了充分利用 SAM 的优势:

  • 2D 到 3D 投影的效率低。考虑到 2D 和 3D 之间的领域差距,大多数现有工作将 3D 数据表示为其 2D 对应输入给 SAM,并将分割结果反向投影到 3D 空间,例如使用额外的 RGB 图像、多视图渲染或神经辐射场。这种模态转换引入了显著的处理复杂性,阻碍了有效的实施。

  • 3D 空间信息的退化。依赖 2D 投影导致了精细的 3D 几何形态和语义的丢失,多视图数据常常无法保留空间关系。此外,3D 物体的内部结构不能被 2D 图像充分捕获,显著限制了分割精度。

  • 提示灵活性的丧失。SAM 的一个引人注目的优点是通过各种提示替代品的交互能力。不幸的是,这些功能在当前方法中大多被忽视,因为用户难以使用 2D 表示来精确指定 3D 位置。因此,SAM 通常用于在整个多视图图像中进行密集分割,从而牺牲了交互性。

  • 有限的领域迁移能力。现有的 2D-3D 投影技术通常是为特定的 3D 场景量身定制的,严重依赖于领域内的模式。这使得它们难以应用于新的环境,例如从物体到场景或从室内到室外环境。另一个研究方向旨在从头开始训练一个可提示的 3D 网络。虽然绕过了 2D 投影的需要,但它需要大量的训练和数据资源,可能仍受训练数据分布的限制。

相比之下,SAM2POINT 将 SAM 2 适应于高效、无投影、可提示和零样本的 3D 分割。作为这一方向的初步步骤,SAM2POINT 的目标不在于突破性能极限,而是展示 SAM 在多种环境中实现强大且有效的 3D 分割的潜力。

0f6ed9c31e884e57aa14c9ffdbfeb9db.png

效果展示

图2 - 图7 展示了 SAM2POINT 在使用不同 3D 提示对不同数据集进行 3D 数据分割的演示,其中 3D 提示用红色表示,分割结果用绿色表示:

dcc8a5b2b0257d29ceabafcff4108b35.png

▲ 图 2 使用 SAM2POINT 在 Objaverse 数据集上进行 3D 物体分割

a27715f114f9c6ca5d62b603c70eb040.png

▲ 图 3 使用 SAM2POINT 在 S3DIS 数据集上进行 3D 室内场景分割

cc48aa99fd2a0b5cb659086c9120e41d.png

▲ 图 4 使用 SAM2POINT 在 ScanNet 数据集上进行 3D 室内场景分割

fc2085d8078264f3716f488e9da5cefa.png

▲ 图 5 使用 SAM2POINT 在 Semantic3D 数据集上进行 3D 室外场景分割

c3564343d1baa631a132a20bed0572ca.png

▲ 图 6 使用 SAM2POINT 在 KITTI 上进行 3D 原始激光雷达数据分割

SAM2Point 的 3D 物体的多方向视频:

12a4241607f5dd4b88b9813978d921e7.gif

eb22f0fc78c5361877ad0a0a2840cffd.gif

8a6509d5d09a6fa0c19634ef4616f511.gif

SAM2Point 的 3D 室内场景多方向视频:

ca32be0f6ef4c77942a12b7c9d393afe.gif

e9715580cd2bfc8c2674a7a8fd7dbe5d.gif

ef7d1c8675b53a09807b587d2a1e6435.gif

SAM2Point 的 3D 室外场景多方向视频:

857296305b98c44870ee519c5b3ff7f8.gif

5df4cceb6b599efef51257f30cd0f37d.gif

16c18f16df57f15274ba46db8a5a2ee8.gif

SAM2Point 的 3D 原始激光雷达的多方向视频:

f3eaa4e858b2f32d32baf0131e3173bc.gif

75d853edd99f1e33987d22ae81eac33f.gif

daa4c85cb726167b56163a30f2f5f39c.gif

27250f167ceb8fa5472efa15e3a74106.png

SAM2POINT方法详述

SAM2POINT 的详细方法如下图所示。下面介绍了 SAM2POINT 如何高效地处理 3D 数据以适配 SAM 2,从而避免复杂的投影过程。接下来,以及详细说明了支持的三种 3D 提示类型及其相关的分割技术。最后,展示了 SAM2POINT 有效解决的四种具有挑战性的 3D 场景。

096106cb165c24678eaff55de6811d9a.png

▲ 图8  SAM2POINT 的具体方法

3.1 3D数据作为视频

对于任何物体级或场景级的点云,用 表示,每个点为 。本文的目标是将 转换为一种数据格式,这种格式一方面能使 SAM 2 以零样本的方式直接处理,另一方面能够很好地保留细粒度的空间几何结构。

为此,SAM2Point 采用了 3D 体素化技术。与 RGB 图像映射、多视角渲染和 和神经辐射场(NeRF)等先前工作相比,体素化在 3D 空间中的执行效率更高,且不会导致信息退化和繁琐的后处理。

通过这种方式,获得了 3D 输入的体素化表示,记作 ,每个体素为 。为了简化, 值根据距离体素中心最近的点设置。这种格式与形状为 的视频非常相似。

主要区别在于,视频数据包含在 帧之间的单向时间依赖性,而 3D 体素在三个空间维度上是各向同性的。考虑到这一点,SAM2Point 将体素表示转换为一系列多方向的视频,从而启发 SAM 2 以与处理视频相同的方式来分割 3D 数据。

3.2 可提示分割

为了实现灵活的交互性,SAM2POINT 支持三种类型的 3D 提示,这些提示可以单独或联合使用。以下详细说明提示和分割细节:

  • 3D 点提示,记作 。首先将 视为 3D 空间中的锚点,以定义三个正交的 2D 截面。从这些截面开始,我们沿六个空间方向将 3D 体素分为六个子部分,即前、后、左、右、上和下。接着,我们将它们视为六个不同的视频,其中截面作为第一帧, 被投影为 2D 点提示。应用 SAM 2 进行并行分割后, 将六个视频的结果整合为最终的 3D mask 预测。

  • 3D 框提示,记作 ,包括 3D 中心坐标和尺寸。我们采用 的几何中心作为针点,并按照上述方法将 3D 体素表示为六个不同的视频。对于某一方向的视频,我们将 投影到相应的 2D 截面,作为分割的框点。我们还支持具有旋转角度的 3D 框,例如 ,对于这种情况,采用投影后的 的边界矩形作为 2D 提示。

  • 3D mask 提示,记作 ,其中 1 或 0 表示 mask 区域和非 mask 区域。使用 mask 提示的质心作为锚点,同样将 3D 空间分为六个视频。3D mask 提示与每个截面的交集被用作 2D mask 提示进行分割。这种提示方式也可以作为后期精炼步骤,以提高先前预测的 3D mask 的准确性。

3.3 任意3D场景

通过简洁的框架设计,SAM2POINT 在不同领域表现出卓越的零样本泛化性能,涵盖从物体到场景,从室内到室外环境。以下详细介绍四种不同的 3D 场景:

  • 3D 单个物体,如 Objaverse,拥有广泛的类别,具有不同实例的独特特征, 包括颜色、形状和几何结构。对象的相邻组件可能会重叠、遮挡或与彼此融合, 这要求模型准确识别细微差别以进行部分分割。

  • 3D 室内场景,如 S3DIS 和 ScanNet,通常以多个物体在有限空间内(如房间)排列的特点为主。复杂的空间布局、外观相似性以及物体之间不同的方向性,为模型从背景中分割物体带来挑战。

  • 3D 室外场景,如 Semantic3D,与室内场景主要不同在于物体(建筑、车辆和人)之间的明显大小对比以及点云的更大规模(从一个房间到整条街道)。这些变化使得无论是全局还是细粒度层面的物体分割都变得复杂。

  • 原始激光雷达数据( LIDAR),例如用于自动驾驶的 KITTI(Geiger 等人,2012),与典型点云不同,其特点是稀疏分布和缺乏 RGB 信息。稀疏性要求模型推断缺失的语义以理解场景,而缺乏颜色则强迫模型只依靠几何线索来区分物体。在 SAM2POINT 中,我们直接根据激光雷达的强度设置 3D 体素的 RGB 值。

0509f03730ca139110b1f957ed89a657.png

讨论与洞察

基于 SAM2POINT 的有效性,文章深入探讨了 3D 领域中两个引人注目但具有挑战性的问题,并分享了作者对未来多模态学习的见解。

4.1 如何将 2D 基础模型适应到 3D?

大规模高质量数据的可用性显著促进了语言和视觉-语言领域大型模型的发展。相比之下,3D 领域长期以来一直面临数据匮乏的问题,这阻碍了大型 3D 模型的训练。因此,研究人员转而尝试将预训练的 2D 模型转移到 3D 中。

主要挑战在于桥接 2D 和 3D 之间的模态差距。如 PointCLIP V1 及其 V2 版本和后续方法等开创性方法,将 3D 数据投影成多视角图像,这遇到了实施效率低和信息丢失的问题。另一条研究线,包括 ULIP 系列、I2P-MAE 及其他,采用了使用 2D-3D 配对数据的知识蒸馏。虽然这种方法由于广泛的训练通常表现更好,但在非域场景中的 3D 迁移能力有限。

近期的努力还探索了更复杂且成本更高的解决方案,例如联合多模态空间(例如Point-Bind & Point-LLM),大规模预训练(Uni3D)和虚拟投影技术(Any2Point)。

从 SAM2POINT 我们观察到,通过体素化将 3D 数据表示为视频可能提供了一个最佳解决方案,提供了性能和效率之间的平衡折衷。这种方法不仅以简单的转换保留了 3D 空间中固有的空间几何形状,还呈现了一种 2D 模型可以直接处理的基于网格的数据格式。尽管如此,仍需要进一步的实验来验证并加强这一观察。

4.2 SAM2POINT在3D领域的潜力是什么?

SAM2POINT 展示了SAM 在 3D 中最准确和全面的实现,成功继承了其实施效率、可提示的灵活性和泛化能力。虽然之前基于 SAM 的方法已经实现了 3D 分割,但它们在可扩展性和迁移到其他 3D 任务的能力方面往往表现不足。相比之下,受到 2D 领域 SAM 的启发,SAM2POINT 展现了推进各种 3D 应用的重大潜力。

对于基本的 3D 理解,SAM2POINT 可以作为一个统一的初始化主干,进一步微调,同时为 3D 物体、室内场景、室外场景和原始激光雷达提供强大的 3D 表示。在训练大型 3D 模型的背景下,SAM2POINT 可以作为自动数据标注工具,通过在不同场景中生成大规模分割标签来缓解数据稀缺问题。

对于 3D 和语言视觉学习,SAM2POINT 天生提供了一个跨 2D、3D 和视频领域的联合嵌入空间,由于其零样本能力,这可能进一步增强模型的效果,如 Point-Bind。此外,在开发 3D 大语言模型(LLMs)的过程中,SAM2POINT 可以作为一个强大的 3D 编码器,为 LLMs 提供 3D Tokens,并利用其可提示的特征为 LLMs 装备可提示的指令遵循能力。

4d2533047ca06a18d1c6f93b4011d2f6.png

总结

SAM2Point,利用 Segment Anything 2(SAM 2)实现了零样本和可提示的 3D 分割框架。通过将 3D 数据表示为多方向视频,SAM2POINT 支持多种类型的用户提供的提示(3D 点、3D 框和 3D mask),并在多种 3D 场景(3D 单个物体、室内场景、室外场景和原始稀疏激光雷达)中展现出强大的泛化能力。

作为一项初步探索,SAM2POINT 为有效和高效地适应 SAM 2 以理解 3D 提供了独特的见解。希望 SAM2Point 能成为可提示 3D 分割的基础基准,鼓励进一步的研究,以充分利用 SAM 2 在 3D 领域的潜力。

outside_default.png

参考文献

outside_default.png

[1] SAM2Point: Segment Any 3D as Videos in Zero-shot and Promptable Manners.

更多阅读

3ce8b17fd76b74c262838d5731d75d3f.png

c92a26c8f96e8b9fba47705c148280ec.png

300eee8ac089b2ac2e8fc0900cfed267.png

183b8db3d4941563e4031cc9bca7da49.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

bf1f02074738449196b304ab63457181.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

89675e085a251806d381a3256c0320a1.jpeg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值