ECCV'24 SegPoint:通过LLM分割任意点云(南洋理工&复旦)

作者 | Shuting He  编辑 | 3D视觉之心

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心BEV感知技术交流群

本文只做学术分享,如有侵权,联系删文

写在前面

尽管在3D点云分割领域取得了显著进展,但现有方法主要针对特定任务,并依赖于明确的指令来识别目标,缺乏在统一框架中推断和理解用户隐式意图的能力。在本研究中,我们提出了一种名为SegPoint的模型,该模型利用多模态大型语言模型(LLM)的推理能力,在多种任务中生成逐点分割掩码:1)3D指令分割,2)3D指代分割,3)3D语义分割,以及4)3D开放词汇语义分割。为了推动3D指令研究的发展,这里还引入了一个新的基准数据集Instruct3D,旨在从复杂且隐式的指令文本中评估分割性能,该数据集包含2,565个点云-指令对。实验结果表明,SegPoint在指代分割的ScanRefer和语义分割的ScanNet等现有基准数据集上取得了具有竞争力的性能,同时在Instruct3D数据集上取得了出色的成果。据我们所知,SegPoint是第一个在单一框架内解决这些多样化分割任务的模型,并取得了令人满意的性能。

领域背景分析

3D点云分割是3D视觉领域的一项关键挑战,旨在解释和分类点云中的每个点,以理解其语义属性。这一长期存在的问题推动了包括机器人、自动驾驶、虚拟现实等在内的多个领域的显著进步。这一挑战已演化为一系列专门的任务,每个任务都针对特定的分割方面。总体而言,这些任务涵盖了基本的语义分割和实例分割,以及更实用的任务,如指代分割,它根据明确的文本描述对点进行分割,以及为应对现实世界动态且复杂的特性而设计的开放词汇分割。

尽管3D领域在通过专门设计的模型准确分割物体方面取得了显著进展,但每个模型通常都是为了解决一个特定的分割任务而开发的,这导致了在现实世界应用中的效率低下和缺乏通用性。此外,以往的感知方法严重依赖于预定义的类别或明确的表达来进行语言理解。这些方法在解释和响应人类语言中常见的隐式指令方面存在不足,这是一个关键的差距,阻碍了真正智能的下一代感知系统的发展。这引出了一个关键问题:是否有可能设计一个统一的模型,能够像人类一样全面解决上述所有3D任务?对这个问题的探索不仅挑战了当前3D点云分割的范式,还为机器人感知和交互领域的突破性进展打开了大门。

此外,还引入了一个名为Instruct3D的基准测试集,旨在推动由隐式和复杂指令驱动的分割领域的研究。理解这些微妙的指令需要推理能力和广泛的世界知识。该基准测试集共包含2565对多样化的指令和点云,用于调优和评估。综合实验证明了该基准测试集在评估模型基于类似人类指令的分割能力方面的实用性。SegPoint利用多模态LLM和任务特定提示,能够在统一模型中为各种任务生成分割掩码:1) 3D指令分割,2) 3D指代分割,3) 3D语义分割,以及4) 3D开放词汇语义分割,如图1所示。SegPoint在如ScanRefer(用于指代分割)和ScanNet(用于语义分割)等现有基准测试集上取得了具有竞争力的结果,同时在Instruct3D数据集上表现出色。

9d843db652bed5b84f5cefe2176238f5.png

总结一下,主要贡献如下:

– 提出了SegPoint,这是第一个能够理解人类意图并在一个框架内解决多个分割任务的三维分割模型,该模型利用了大型语言模型的推理能力。

– 引入了一个几何增强模块,该模块将全面的场景信息整合到三维场景理解过程中。此外,还设计了几何引导特征传播机制,以实现准确且细粒度的分割。这两个模块补充了缺失的局部信息,并捕获了密集预测任务所需的细粒度特征。

– 引入了一项名为“3D指令分割”的新任务,并构建了一个新的数据集Instruct3D,该数据集要求模型具备自我推理能力,以解释隐式指令来分割目标对象。

– 实验结果表明,SegPoint不仅在三维语义分割、指代分割和开放词汇语义分割方面表现出色,而且在3D指令分割方面也展现出了卓越的性能,证明了其在各种分割挑战中的通用性和有效性。

SegPoint整体架构

25e2a4f1091e8ad06ff212163abc5645.png

SegPoint的总体架构如图2所示。SegPoint主要由四部分组成:i) 一个为与文本数据对齐而定制的预训练点编码器E;ii) 一个具有高级推理能力的大型语言模型F;iii) 一个几何增强模块G,负责从输入的点云中提取几何表示,并将这些先验知识注入到点编码器中;以及iv) 一个几何引导特征传播P,这是实现精确掩码生成的关键。几何增强模块与几何引导特征传播之间的协作至关重要,因为它使大型语言模型能够在各种场景下有效地生成掩码。

1)Vanilla Baseline

该框架的输入是文本指令和点云。具体来说,一个点云场景包含N个点,每个点包括三维坐标∈ 和一个辅助特征向量∈ (例如颜色)。点云被输入到点编码器E中,该编码器提取点特征,其中,D为特征维度。同时,文本指令通过进行分词处理。这些准备好的输入随后被输入到大型语言模型F中,产生文本响应y。上述过程可以表述为:

1d8f08e1bfa369087ead8665ade06721.png

基于LISA引入的方法,SegPoint通过引入一个新的特殊标记来扩展大型语言模型(LLMs)的词汇,从而增强其分割能力。这一修改使模型能够在输出序列中识别并预测标记,作为识别分割目标的信号。在检测到标记后,将属于标记的相应输出序列提取出来,并通过一个多层感知机(MLP)层γ进行处理,生成掩码嵌入hseg。最后一步是计算每个二进制掩码预测m ∈ R^N,这是通过掩码嵌入与从点特征导出的上采样逐点嵌入进行点积运算来实现的。上述过程的公式表示如下:

9196b276fbd37bf8b727e2e7de66be76.png

其中,UpS表示在上按照PointNet++进行的上采样操作。原始基线模型代表了一个初步尝试,旨在弥合大型语言模型(LLMs)的文本理解和点云分割任务之间的差距。然而,它遇到了两个主要问题。首先,点编码器是在一个用于分类的场景级数据集上训练的,以实现文本和点云之间的对齐,而不是专门针对密集预测任务进行训练的。此外,点编码器的第一层采用最远点采样(FPS)将点云减少到N1个点,这可能会丢失对于准确密集预测至关重要的细节。其次,直接从N1个点上采样到N个点以获得逐点嵌入的操作容易丢失结构信息并引入相当程度的噪声,从而削弱了模型在分割任务中的有效性。

2)Geometric Enhancer Module

为了使预训练的点编码器适应密集预测任务,同时保持其优越的场景识别能力,本文的目标是利用整个场景中的几何信息来指导进一步的特征学习过程。从二维计算机视觉领域的最新进展中汲取灵感,其中一些研究表明,卷积增强了Transformer捕获局部空间信息的能力,我们引入了几何增强模块(GEM)。该模块专门设计用于捕捉点云中的局部几何上下文,同时保持点编码器的基础架构和信息完整性。

ee4471d7322b4194f008b7067ff3a883.png

如图3所示,几何增强模块G由三个块组成,每个块都有一个KPConv层,后面跟着BN和ReLU激活函数。该架构类似于二维卷积干。在这里使用KPConv而不是普通的卷积或线性层,以便更有效地捕捉局部几何信息。由此产生的几何特征,由表示,包含了所有点的特征,从而补充了缺失的局部信息。然后,利用这个通过交叉注意力机制将几何洞察力注入到点编码器的特征中,上述过程可以表示为:

50502c2ea9e71a355d93d65ea25a2cca.png

其中, 表示点编码器第  个块的特征,为了解释方便,将连续的  个Transformer层视为一个块。为了微调几何信息的集成,这里引入了一个可学习的门控因子 ,它调节注意力层输出与输入特征  之间的平衡。该门控因子最初设置为零,以确保几何数据的加入不会突然改变  特征的分布。这种方法有助于保留并有效利用点编码器的预训练权重。经过几何增强模块(GEM)处理后,点编码器的修改后输出,即大型语言模型(LLM)的公式表达为:

7b84b67c4975c354a7767da28edadbf5.png

3)Geometric-guided Feature Propagation

从稀疏的 N1 个点集上采样得到更密集的 N 个点集的点云处理挑战至关重要,因为直接上采样不可避免地会引入噪声并导致信息丢失,从而在分割任务中导致次优性能。为了缓解这些问题,我们引入了几何引导特征传播(Geometric-guided Feature Propagation),旨在生成高质量的逐点嵌入。几何特征  携带全面的点信息,作为“黄金信息”来增强上采样过程。通过整合这些几何特征,我们旨在显著提高生成的密集逐点嵌入的质量和准确性。

如图3所示,首先使用PointNet++的传播技术,从较小的点集N1对更高层的特征f3、f4进行上采样,得到更大的点集N3、N2。这一步产生了特征 和 。随后,利用最远点采样(FPS)技术,将原始点数N的几何特征gf分别下采样到更少的点数N2、N3。在这个过程中,直接获得了采样点的特征,而没有执行额外的k最近邻(k-NN)和池化操作,以简化计算并生成特征 和。

在下一阶段,我们将上采样和下采样的特征进行集成,并通过全连接层和ReLU激活函数处理它们,以更新特征向量f̃3 ∈ R{N3×D} 和f̃4 ∈ R{N2×D}。请注意,最后一层特征f5绕过了这一步。相反,我们将其与LLM输出的ĥpoint进行拼接,形成f̃5,以感知来自LLM的多模态信息。

最后,为了实现不同点密度之间的信息交换,我们提出了注意力传播机制。以从f̃5到f̃4的传播为例。这里,作为一组局部中心。对于f̃4中的每个局部中心,使用k-NN算法从f̃5中找出其邻近点,得到。然后,采用交叉注意力机制,其中f̃4作为查询(query),同时作为键(key)和值(value),以促进不同点密度之间的信息流动,并有效地将相关细节提取到查询点中。

e755403e0bcf863fe37144c23ef8b1db.png

利用几何引导特征传播,能够生成高质量的逐点嵌入,表示为,这为生成精确的分割掩码奠定了基础,表示如下:

849f80caa783b0de990a4e7af16f86d2.png

4) Training Objectives

模型是通过利用文本分类损失和分割掩码损失进行端到端的训练的:

033ddb97b0e5b413ddcc938918ef1ae9.png

其中,表示针对文本生成准确性的自回归交叉熵损失,分割掩码损失包括二元交叉熵(BCE)损失和DICE损失,旨在提高分割质量。权重λ、λ和λ用于平衡不同的损失项。模型的训练由文本的真实标签和掩码的真实标签M指导。

5)Instruct3D 数据集收集

尽管3D指令分割和3D引用分割都是基于语言的分割,但3D引用分割通过明确的目标对象名称(如“椅子”)来指导分割,缺乏更复杂的推理指令(如“房间里的座位在哪里?”)。此外,它们还缺乏提供多目标问答对的能力,这些问答对的目标描述直接与多个分割掩码相关联,这无法满足现实场景中的常见需求,如“如何玩电脑游戏”。

为了增强对指令分割能力的评估和分析,我们也开发了一个基准测试集,称为Instruct3D。该基准测试集包含280个场景,这些场景是专门为指令分割调优和评估而精心挑选的,它们来源于最近推出的ScanNet++数据集。每个场景都附有大约10个不同的分割指令,共产生了2,565个指令-点云配对。然后,该数据集被分为两个子集:训练集(train)和验证集(val),分别包含2,052和513个问答对。我们的数据集独特地设计了包含多目标和零目标场景,以应对现实世界中对文本查询做出响应时识别多个对象的需求,并考虑到文本中提到的对象可能不在配对的点云中的情况。此外,我们还考虑了3D场景的特点,并融入了不同的位置和视图描述,例如“工作时用于坐着的东西。它是面向窗户的那一个。”。模型不仅需要具备推理能力,还需要具备在3D场景中感知视图和方向的能力。这些设计凸显了数据集的实际价值。

实验对比分析

数据集。我们的训练数据由两种类型的数据集组成:(1)语义分割数据集,包括ScanNet200和S3DIS;(2)引用分割数据集,包括ScanRefer、ReferIt3D(包括Sr3D和Nr3D)和Multi3DRefer。我们设计了针对特定任务的提示,以便在统一的框架内联合训练各种任务。

评估指标。遵循大多数先前关于3D分割的工作,采用mIoU作为主要评估指标。mIoU定义为所有点云场景交并比(IoU)的平均值。此外,还采用准确率(Acc)作为评估指标,以评估模型是否准确识别出预测IoU大于0.5的目标。

在实验中,除非另有说明,否则我们使用LLaMA2-7B模型作为大型语言模型F,使用Uni3D作为点云处理骨干网络E。训练阶段利用deepspeed引擎提高效率,并采用AdamW优化器指导学习过程。学习率和权重衰减分别设置为0.0003和0,并通过WarmupDecayLR学习率调度器进行增强,该调度器以100次预热迭代开始。投影层γ采用具有[256, 4096, 4096]通道尺寸的多层感知机(MLP)。将平衡权重λtxt_gen、λbce和λdice分别设置为1.0、2.0和2.0。实验采用的总bs为16,分布在4个NVIDIA 80G A100 GPU上,并跨越5000次iter,训练周期约为3天。在训练过程中,利用特定任务的提示。为了在某个特定数据集上进行评估,我们在相应的数据集上对训练好的模型进行微调。

5c9a41fc67d9f07061f1ff00042ffcc9.png 2ee6785fa6e41dbea63d90176f53cd5c.png 626294870d8c3bbc969ebc8c98fe2520.png ff806aba0a71703245ecfad3b18c16b5.png 4b9f8a88911a6142b7ca82201845c595.png

参考

[1] SegPoint: Segment Any Point Cloud via Large Language Model.

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!重磅,自动驾驶之心科研论文辅导来啦,申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向,欢迎联系我们!

45a74047cd33ed038927586f1e51a29d.jpeg

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

ca6f0075131bc7ae0814025a0cde1120.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

b09c7416fe2dbd8caf6886804603f04a.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

7b04daf2ca9d6ec12159858676fdde6d.jpeg

④【自动驾驶之心】全平台矩阵

e8636b45a582b7403b99842f7274292f.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值