A review of point cloud segmentation for understanding 3D indoor scenes全文翻译

A review of point cloud segmentation for understanding 3D indoor scenes

摘要

点云分割是三维(3D)视觉和智能化中的一项基本任务。它是理解复杂3D场景的关键步骤。随着3D扫描设备的快速发展,点云数据对研究人员来说越来越容易获得。深度学习的最新进展正在推动点云分割研究及应用的进展。本文对用于理解3D室内场景的点云分割的最新进展进行了全面综述。首先,我们介绍了公共点云数据集,这是该领域研究的基础。其次,我们简要回顾了过去基于几何的分割方法。然后,介绍了基于多视图和体素并以深度学习为基础的分割方法。接下来,我们概述了基于深度学习的点云分割,从语义分割到实例分割。根据标注的程度,这些方法分为完全监督和弱监督方法。最后,我们讨论了未来的开放挑战和研究方向。

关键词:点云、场景理解、深度学习、语义分割、实例分割

1.引言

理解室内场景是计算机视觉和智能化的基本任务之一。深度传感器和三维(3D)扫描仪(如RGB-D相机和激光雷达)的快速发展,增加了人们对各种应用(如机器人技术[1]、导航[2]和增强/虚拟现实[3,4])中3D室内场景理解的兴趣。3D室内场景理解的目标是辨别每个室内场景中组件的形状和语义上下文。有多种3D数据格式,包括深度图像、网格、体素和点云。其中,点云是3D应用中最常见的非离散化数据表示,可以直接通过3D扫描仪获取。也可以通过多目视觉和单目视觉等技术得到的立体信息或者多视图图像重建出点云数据。

点云分割旨在将室内场景分解为有意义的部分并为每个点进行标注,是理解3D室内场景的基本且不可或缺的步骤。点云提供了原始的空间信息,使其成为分割室内场景的首选数据格式。室内场景点云的分割可分为语义分割和实例分割。语义分割为每个点分配一个场景级对象类别标签。实例分割则更具难度,需要对单个对象进行识别和定位。与处理动态对象的室外点云分割不同,室内点云分割通常处理形状规则设计的杂乱人造物体。室内点云数据通常由短距离的消费级传感器捕获,而室外点云通常由激光雷达收集。室内点云分割面临若干挑战。首先,点云数据通常规模庞大且数量众多,且来自不同传感器的质量各不相同。这使得有效处理和准确标注点云数据变得困难。其次,室内场景通常较为杂乱存在严重遮挡情况。当物体被隐藏或紧密靠在一起时,准确分割物体具有挑战性。而且,与二维(2D)图像中的常规数据结构不同,点云数据是稀疏且无组织的,这使得难以将复杂的2D分割方法直接应用于3D点云。此外,标注3D数据既耗时又费力,限制了完全监督学习的能力。现有的室内点云数据集有限,且存在长尾分布问题。

大量的努力已投入到点云分割的任务中。用于点云分割的传统基于几何的解决方案主要包括基于聚类的、基于模型的和基于图的方法[5]。这些方法中的大多数依赖于具有启发式几何约束的手工制作的特征。深度学习在2D视觉方面取得了显著进展[6-8],从而推动了点云分割的发展。近年来,基于点云的深度神经网络[9]已展示出能够提取更强大的特征,并为更好地理解3D场景提供更可靠的几何线索的能力。随着诸如ShapeNet、ModelNet、PartNet、ScanNet、Semantic3D和KITTI等公共数据集的可用性,从3D数据中学习已成为现实。最近,点云分割的弱监督学习已成为一个热门的研究主题,因为它试图从有限的标注数据中学习特征。

本文对用于室内3D场景理解的点云分割进行了全面综述,特别是基于深度学习的方法。我们将介绍用于室内场景点云分割的主要数据集和方法,分析该领域当前的研究趋势,并讨论未来的发展方向。本文的结构如下。第2节首先介绍了3D室内数据集。第3节简要回顾了基于几何的点云分割方法。第4节回顾了基于深度学习的结构化数据分割方法。第5节全面调查了用于3D场景分割的现有基于点云的深度学习框架。第6节介绍了最近的以深度学习为基础的使用多模态数据的分割方法。第7节总结了使用不同方法进行室内点云分割的性能。第8节讨论了开放性问题和未来的研究方向。第9节总结了本文。

2.3D室内场景点云数据集

3D数据集的出现促使了基于深度学习的分割方法的发展,这在推动该领域以及促进研究和应用方面的进展中起着至关重要的作用。公共基准已被证明在框架评估和比较方面非常有效。通过提供具有真实标注的真实世界数据,这些基准为研究人员测试其算法提供了基础,并能够在不同方法之间进行公平比较。两个最常用的3D室内场景点云数据集是ScanNet[10]和S3DIS[11]。

ScanNet。ScanNet[10]是一个RGB-D视频数据集,涵盖了超过1500次扫描的250多万个视图。该数据集由RGB-D相机捕获,并广泛标注了基本信息,如3D相机位姿、表面重建和实例级语义分割。该数据集在包括物体检测、语义分割、实例分割和计算机辅助设计(CAD)模型检索等各种3D场景理解任务中,推动了最先进性能的进步。ScanNetv2是修改后的发布版本,精心收集了1513次扫描,并进行了令人印象深刻的表面覆盖标注。在语义分割任务中,V2版本为20类3D体素化对象标注了注释。这些类别中的每一个都对应于特定的家具类别或房间布局,以便对捕获的室内场景进行更精细的理解和分析。这使得ScanNetV2成为针对室内场景语义分割的最活跃的在线评估数据集之一。除了语义分割基准外,ScanNetV2还为实例分割和场景类型分类提供了基准。

ScanNet200。ScanNet200[12]是在ScanNetV2的基础上开发的,旨在克服20个类别标签的有限集合。它将类别的数量显著扩展到200个,与之前的版本相比增加了一个数量级。此注释能够更好地捕捉和理解具有更多样化对象范围的真实世界室内场景。通过将200个类别分为三组,这个新的基准可以对不同对象类别分布的性能进行更全面的分析。具体来说,“头部”集包含66个频率最高的类别,“常见”集由68个频率较低的类别组成,“尾部”集包含其余类别。

S3DIS。斯坦福大规模3D室内空间数据集[11],即S3DIS,通过Matterport扫描仪获取,是另一个在点云分割中被广泛使用的高人气数据集。该数据集包含272个房间场景,分为6个不同区域。场景中的每个点都被分配了一个语义标签,对应于13个预定义类别中的一个,如墙壁、桌子、椅子、橱柜等。此数据集是专门为大规模室内语义分割而整理的。

Cornel RGBD。此数据集[13]提供了52个带标签的室内场景,包括具有RGB值的点云。它由24个带标签的办公室场景和28个带标签的家庭场景组成。点云数据是通过 RGBD - SLAM 方法从原始 RGB - D 图像生成的。该数据集包含约 550 个视图,跨越 27 个对象类别的 2495 个标记段,为室内场景理解的先前研究和开发提供了宝贵的资源。

Washington RGB-D 数据集。该数据集[14]包含 14 个室内场景点云,这些点云是通过 RGBD 图像配准和拼接获得的。它提供了 9 个语义类别标签的注释,例如沙发、茶杯和帽子。

3.基于几何的分割

用于理解室内场景的基于几何的解决方案可分为聚类或区域生长,或基于模型拟合的方法。大多数这些方法使用基于启发式几何约束的手工制作的特征。基于几何的方法的原理是——人造环境通常由许多几何结构组成。

类和区域生长。这些方法假定彼此距离较近的点更有可能属于同一物体或表面。通过考虑这些相邻点的几何特性,如空间坐标和表面法线,这些方法可以识别在这些特性上具有相似性的区域。Mattausch 等人[15]提出了一种通过从多房间室内扫描数据中识别重复物体来分割室内场景的方法。为了表示室内场景,他们使用了一组近乎平面的面片。这些面片基于使用形状几何描述符构建的面片相似性矩阵进行聚类。通过这种方法,研究人员旨在利用固有的重复物体结构有效地分割室内场景。Hu 等人[16]使用动态区域生长方法将点云分割成表面面片以生成初始分割。通过利用这种中间数据表示,该模型可以更好地考虑形状变化并增强其对物体分类的能力。

模型拟合。模型拟合是一种特别是在存在噪声和异常值的情况下更高效和稳健的策略。Nan 等人[17]为场景建模引入了一种搜索 - 分类管道,利用预训练的对象类别来辅助该过程。同样,Li 等人[18]提出了一种对象检索方法,用来自 3D 形状数据库的对象替换扫描数据。在另一种方法中,Shi 等人[19]为对象和对象组训练分类器,该分类器允许室内子场景的分解。以上这些方法主要依赖于当前 CAD 数据集的可用性和多样性,这限制了它们的有效性。相对地,另一种策略涉及采用基于基本几何元素的方法,该方法中室内场景被分解成一系列几何基本元素的集合。通过利用这一策略,研究人员旨在捕捉场景的基本几何信息,而不过度依赖大量的 CAD 数据集。这些基于基元的方法提供了另一种场景分解的手段。最广泛使用的基元拟合方法是随机抽样一致性(RANSAC)[20]。Monszpart 等人[21]通过基于 RANSAC 的平面拟合处理大规模室内点云。Sun 等人[22]开发了一种图割分割方法,对室内子场景中发现的基元进行分组。通过 RANSAC 提取诸如平面和圆柱体之类的基元,并通过主成分分析(PCA)进行定向。Yu 等人[23]进一步使用补丁关系分类器对平面补丁进行分组并实现实例分割。

这些基于几何的方法不能直接为每个点分配对象类别或实例标签。通常需要后处理来产生最终的分割结果。最近,有几种方法将基于几何的分割作为预处理步骤,并生成中级场景表示作为深度学习框架的输入。例如,Huang 等人[24]对表面体素进行聚类,以提供 3D 场景的紧凑表示。Landrieu 和 Simonovsky [25]将扫描数据划分为超点,这些超点是几何同质元素。Cheng 等人[26]在邻域级别使用非局部操作对超点级表示进行编码。Deng 等人[27]提出了一种迭代算法,通过结合基于几何和基于颜色的区域生长方法来生成超点。同样,基于几何的超点已被证明可以利用大规模点云,并在弱监督学习中作为先验[28 - 31]。我们将在以下部分详细回顾这些深度学习网络。

4.基于深度学习的结构化数据分割

与使用手工制作特征的基于几何的方法不同,基于深度学习的方法会自动提取潜在特征。然而,由于点云数据格式的非结构化和无序性,点云特征学习仍然存在困难。由于 3D 场景可以以多种形式表示,例如多视图图像和体素,将点云转换为结构化数据格式是很自然的做法。

4.1基于图像的方法

卷积神经网络(CNNs)在图像领域的成功与发展影响了点云特征学习的发展。将 3D 数据转换为结构化的多视图表示是常见的做法[32, 33]。其思路是使用虚拟相机从不同角度捕捉场景点云,从而得到多视图 RGB 图像以及相应的深度图像。然后应用 CNN 来执行特征

在 RGB 图像上进行提取,下游任务的结果被投影回 3D 空间。例如,MVCNN [32] 从 12 个角度虚拟扫描 3D 对象以获得渲染图像,并通过 CNN 从每个图像中提取特征。这些特征被融合成一个描述符,用于对象分类。SnapNet [33] 也将 CNN 应用于从点云数据中生成的多视图图像。与 MVCNN 不同,SnapNet 选择一组适当的点云快照来生成 RGB 图像和相应的深度图。CNN 用于优化 RGB-D 输入并生成被反投影到相应 3D 点的像素标签。然而,这些网络在分割室内场景方面存在一些局限性。基于多视图的语义分割存在一些缺点,例如需要选择视点和扫描次数。此外,投影和反投影的过程不可避免地会导致一些信息丢失,尤其是结构特征。

4.2基于体素的方法

将点云转换为基于体素的表示是解决 3D 数据正则化挑战的另一种方法[34–37]。VoxNet [34] 在点云段上生成 3D 边界框,并将其转换为体积网格以表示空间占用情况。使用 3D CNN 直接从占用网格预测标签。SEGCloud [36] 利用基于体素的 CNN 对室内场景进行分割。其思路是通过将室内场景划分为体素来预处理输入点云。然后使用 3D 全卷积网络生成体素标签。随后使用三线性插值对这些体素标签进行插值,以将体素标签分配给相应的点。VV-Net [35] 利用基于径向基函数的变分自编码器网络进行点云处理。与基于二进制体素的表示不同,VV-Net 为点云提供了更丰富的表示。扫描点云的体素化面临一定的挑战。在低分辨率下存在丢失保真度和精细细节的风险,而在高分辨率下计算和内存需求会变得过高。 尽管已经做出努力来缓解这些问题,例如减少内存消耗和计算量[38, 39],但基于体素的表示方法通常仍难以处理大规模场景分割。最近,OctFormer [40]尝试使用八叉树将输入点云划分为局部窗口,并使用稀疏八叉树注意力来提高分割性能。

5.基于深度学习的点云分割

最近的研究探索了将深度学习技术直接应用于原始扫描点云,作为多视图和基于体素方法的替代方案。虽然点云数据可以直接从扫描设备中获得,但其不规则的数据格式给传统卷积神经网络(CNNs)带来了挑战。为了解决这个问题,PointNet [41] 作为一种基于点的学习的开创性方法应运而生。作为点云学习的基准,PointNet 的一个局限性是它没有利用点的局部邻域内的结构信息。面对该问题,后续的研究通过加强采样方法和特征提取技术的使用取得了进展。例如,一些工作通过结合最远点采样[42]或随机采样[43]改进了采样方法。这些修改旨在提高网络的特征提取能力和计算效率。这些在 PointNet 基础上的进展通过纳入来自局部邻域点的结构信息并改进特征提取过程来解决其局限性。一些研究人员选择了一种替代 PointNet 的方法,并在点云上设计特定的卷积操作[44 - 49]。 因此,这些架构为下游的 3D 场景理解任务(如点云语义分割和点云实例分割)提供了改进的性能和能力。基于学习的点云分割方法的简要时间线如图 1 所示。这些方法包括 SGPN [50]、PAT [51]、PointWeb [52]、GSPN [53]、ASIS [54]、KPCov [55]、3D-BoNet [56]、3D-MPA [57]、PointGroup [58]、MPRM [59]、PGCNet [60]、WSSPK [61]、DyCo3D [62]、PSD [63]、SSTNet [64]、分层 Transformer [65]、HybridCR [66]、SoftGroup [67]、SegGroup [68]、SQN [69]、3D-WSIS [70]和 Mask3D [71]。

5.1点云语义分割

点云语义分割是 3D 室内场景理解中的一项基本任务,旨在将场景划分为多个子集。根据各个点的语义含义,我们的目标是将场景中的每个点分配到特定的类别标签。语义分割方法可根据其依赖的监督信息的程度进行分类。根据标注数据的可用性,这些方法可分为完全监督方法和弱监督方法。

5.1.1完全监督语义分割

基于深度学习的点云语义分割需要大规模数据进行训练,并且通常依赖于密集标注。当前完全标注的公共数据集使完全监督的点云学习成为可能。

PointNet。Qi 等人[41]引入了 PointNet 网络架构。该网络包含三个关键组件:多层感知机(MLP)模块、最大池化结构和特征融合结构。MLP 模块通过权重共享实现点云特征的提取。

(图1 基于学习的点云分割的简要时间线

最大池化结构采用对称函数,在一组点中选择最大特征值,并作为全局特征表示。这种设计解决了数据不规则的问题。特征融合结构将从最大池化操作中获得的局部特征和全局特征相结合。这些合并的特征被用作输入,MLP 为每个点预测标签。此外,PointNet 包含 T-Net 结构,有助于学习有效的旋转矩阵。PointNet 在语义分割和对象分类等任务中已证明其有效性,使其成为该领域的基础网络架构。

PointNet++。PointNet++ [42] 引入了一系列构建模块,包括采样层、分组层和 PointNet 层。这种分层设计能够从点云中提取多尺度特征。通过堆叠这种特征提取结构的多个层,PointNet++ 可应用于点云分类和分割等任务。

PointCNN。PointCNN [44] 将输入点转换为潜在表示。这种转换称为 x-conv,是使用多层感知机(MLP)实现的。这种转换使得可以应用传统卷积,这在捕获常规数据域中的局部和全局模式方面是有效的。

基于图卷积网络(GCN)的方法。近期研究探索了将图卷积网络(GCN)应用于点云,认识到点及其相邻点可形成图结构[25, 46, 72]。目的是在保持排列不变性的同时提取局部几何结构信息。这是通过利用顶点及其邻点的特征构建空间或频谱邻接图来实现的。DGCNN [46]使用多层感知机(MLP)来聚合由节点及其空间邻居组成的边特征。然后根据边特征更新节点的特征。RGCNN [45]将点云中数据点的特征视为图信号,并使用基于频谱的图卷积进行点云分类和分割。基于频谱的图卷积操作是使用切比雪夫多项式的近似来定义的。此外图的拉普拉斯矩阵在网络的每一层根据学习到的深度特征进行更新。这允许在考虑数据的无序性的同时提取局部结构信息。DGCNN 和 RGCNN 展示了使用 GCN 的不同方法。DGCNN 专注于边缘特征聚合和节点特征更新,而 RGCNN 使用基于频谱的图卷积,并根据学习到的深度特征更新拉普拉斯矩阵。SPG [25] 是一个专门为具有数百万个点的大规模点云中的语义分割任务设计的深度学习框架。该框架引入了超点图(SPG)的概念,有效地捕捉了 3D 点云的空间分布特征。通过将扫描场景划分为几何上均匀的元素,SPG 提供了一个紧凑的表示,捕捉了点云内不同对象部分之间的上下文关系。利用这种丰富的表示,使用 GCN 来学习和推断语义分割标签。 SPG 结构与 GCN 的结合能够捕捉上下文关系,从而对复杂且大量的点云数据进行准确的语义分割。PointWeb [52] 设计了一个自适应特征提取模块,用来寻找密集连接的邻点之间的相互作用。与大多数基于点的深度学习方法不同,PGCNet [60] 将几何信息作为先验知识,并使用表面贴片进行数据表示。该方法背后的理念是,人造物体可以分解为一组几何基元。PGCNet 框架首先使用区域生长方法从室内场景点云中提取表面斑块。以表面贴片及其几何特征作为输入,设计了一个基于 GCN 的网络来探索贴片特征和上下文信息。该网络具体来说,一个采用动态边缘卷积的动态图 U-Net 模块,聚合了分层特征嵌入。利用表面贴片表示,PGCNet 可以在训练量少得多的情况下实现具有竞争力的语义分割性能。

基于 Transformer 的方法。Transformer 技术革新了(自然语言处理)和 2D 视觉[73, 74],启发了基于注意力的网络在 3D 空间中的应用。PCT [47]通过注意力机制提取点云特征。它通过合并空间位置编码和输入嵌入来表示每个点,从而解决了无序问题。PAT [51]使用参数高效的组自注意力操作和基于 Gumbel - Softmax 的采样来替代多头自注意力和最远点采样。Point Transformer [48]直接在每个点与其相邻点之间融入局部注意力,有效地解决了内存成本问题。Point Transformer V2 [49]通过用具有分组权重编码的组向量注意力替换原始注意力,进一步改进了前一版本。Stratified Transformer [65]通过分层采样来改善远程上下文捕获。有关基于 Transformer 的结构的图示,请参考参考文献[48]。所有这些基于 Transformer 的网络都可以作为各种点云理解任务的强大骨干网络。

近年来,基于 Transformer 的骨干网络已被证明在利用特征方面比其他结构更有效,但计算成本也会增加。为点云语义分割确定高效且强大的学习网络值得进一步探索。

5.1.2弱监督语义分割

尽管取得了巨大的进展,但完全监督语义分割方法的广泛应用仍存在局限性。完全监督训练需要大量精确的标注,而当前的点云数据仍然稀缺且难以标注。为了应对标注数据有限的问题,研究人员探索了用于语义分割的弱监督学习。

一种策略是仅选取一部分点进行标注。Xu 和 Lee [75] 提出了一种用于语义点云分割的弱监督网络。这是通过三个精心设计的分支来实现的。孪生分支通过鼓励原始预测和相应增强预测之间的一致性来增强训练样本。不精确分支抑制任何给定点的负类别激活。利用空间和颜色约束,平滑分支确保空间上连接且颜色相似的点具有相同的标签。SQN [69] 编码一组分层潜在表示,并根据空间位置检索子集。这些表示被输入到多层感知机(MLP)中以预测语义标签。DAT [76] 使用对抗策略结合双重自适应变换,以利用局部一致性和结构平滑性。这些方法需要自适应和高质量的采样,当输入数据规模变化时,这是困难的。

另一种方法是将输入点云分组为子云或超点。基于使用子云级别标签训练的分类网络,Wei 等人[59]提出了一种多路径区域挖掘网络,用于生成完全监督训练的点级伪标签。通过构建 SPG,SSPC-Net [29]通过半监督图神经网络(GNN)实现点云语义分割。提取超点的特征作为生成和传播伪标签的输入。采用耦合注意力机制来增强判别性上下文特征的提取。Deng 等人[27]将超点作为伪标签传播的约束和引导。该框架由用于生成超点的超点生成模块、用于识别低置信度伪标签的伪标签优化模块、用于特征提取的超点特征聚合模块以及用于边缘约束的边缘预测模块组成。有关基于超点的结构的图示,请参考参考文献[27]。虽然这些方法用少得多的标注实现了实例分割,但它们高度依赖于分组质量。

作为上述方法的替代策略,从未标记点中学习可以作为预训练的借口。受对比学习在自监督任务中的最新发展的启发,Jiang 等人[77]引入了引导点对比学习,它改进了半监督网络中的特征表示。从输入点云生成的增强点云被输入到无监督分支中,用于骨干网络训练。骨干网络、分类器和投影仪与监督分支共享,以产生语义分数。通过结合自监督学习,Zhang 等人[61]提出了一种用于弱监督点云语义分割的双组件网络。通过自监督网络从大规模未标记点中学习先验知识。与稀疏标签传播机制一起,先验信息被转移到弱监督网络中进行标签预测。Zhang 等人[63]提出了一种用于点云语义分割任务的扰动自蒸馏框架。 该框架的核心是保持扰动分支和原始分支之间的一致性,在有标签和无标签数据之间架起信息桥梁。施加一致性约束以在所有点之间建立图形拓扑结构。此外,利用有标签点的语义上下文来监控点云的整体理解。One thing one click [30] 对每个对象使用一个标注点进行语义分割。一种带有标签传播的自训练方法被集成到该框架中。在这种稀疏监督下,学习语义和几何相似性以生成和更新伪标签。HybridCR [66] 采用混合对比正则化来寻找局部邻域中的相似性以及全球背景。PointMatch [78] 通过提高伪标签的质量从稀疏标注中学习一致的表示。这是通过引入超点信息来实现的。最近,Liu 等人 [79] 将主动学习与自训练相结合,通过选择要标注的点来提高实例分割性能。虽然预训练很有前景,但它仍然需要大量数据进行训练,并且从其他任务微调模型可能会很困难。

5.2点云实例分割

实例分割涉及将每个对象识别并标记为单独的实例。基于图像的实例分割可分为两个不同的类别:基于检测的方法和无检测的方法。基于检测的方法首先预测每个对象的位置以生成提议区域,然后获得每个像素的实例掩码[8]。例如,YOLO [80]预测不同图像网格的语义类别和目标边界框以完成图像分割。无检测方法依赖于语义分割结果,然后使用聚类技术获得实例标签。特别是,PFN [81]设计了一个框架,为每个类别训练三个子任务,即语义分割、实例位置和实例计数。通过聚类获得最终的实例级分割结果。随着深度学习在 3D 数据中的兴起以及大规模标注点云数据集的可用性,基于深度学习的 3D 点云实例分割受到越来越多的关注。

5.2.1完全监督的实例分割

全监督点云实例分割需要点级实例标签。与基于图像的实例分割类似,全监督方法也可分为基于检测的方法和无检测的方法。详情请参考参考文献[53]和[50]。

基于检测的方法首先预测 3D 边界框,然后生成点级实例掩码。GSPN [53] 采用分析合成策略并生成对象提议。设计了一种基于区域的 PointNet 来优化提议并生成实例分割。3DBoNet [56] 对 3D 边界框进行端到端回归,并为所有实例预测点级掩码。它由一个骨干网络组成,后面跟着两个并行分支。一个分支专门用于边界框回归,而另一个分支专注于点掩码预测。GICN [82] 将每个对象的实例中心近似为高斯分布。然后对该高斯分布进行采样以生成候选,随后这些候选用于生成相应的边界框和实例掩码。

无检测方法首先预测点级语义标签,然后将点分组为实例。SGPN [50]是用于点云实例分割的早期深度学习框架。SGPN 以 PointNet++ 为骨干,基于相似性矩阵预测组提议。ASIS [54] 通过与语义监督的联合训练生成点级实例标签。同样,JSNet [83] 和 JSIS3D [84] 也受益于同时训练实例和语义分割。Liang 等人 [85] 使用基于注意力的邻居搜索的 GNN,在语义和实例监督下获得判别特征。然后采用均值漂移后处理对嵌入进行聚类以进行最终预测。SoftGroup [67] 是一个由自下而上分组和自上而下细化组成的两步框架。给定输入点云,使用软分组模块根据语义分数和偏移向量生成实例提议。虽然大多数无检测方法需要后处理,例如中心投票或非最大抑制,但 Mask3D [71] 利用基于 Transformer 的模块直接预测实例掩码。 语义和几何信息通过堆叠的 Transformer 解码器编码到点特征中,该解码器提供了一个实例热图,表明点云之间的相似性。最近,SPFormer [86] 已被开发出来,它基于超点交叉注意力以端到端的方式直接预测实例。超点特征从点云中聚合,并用作 Transformer 解码器的输入。

近年来,通过单独的检测步骤来执行实例分割任务的基于检测的方法,不如旨在实现端到端解决方案的无检测方法受到的关注多。此外,人们探索了具有不同标注水平的不同骨干网络。然而,实例分割的准确性仍然较低,现有方法的通用性缺乏有力的经验证据。

5.2.2弱监督实例分割

尽管在密集注释不可用时,完全监督的点云实例分割可能会遭受性能下降,但对于试图用少量的标签将点分类到对象中的弱监督框架来说影响较小。

廖等人[87]提出了一种用于点云实例分割的半监督框架,该框架使用边界框进行监督。输入的点云通过边界框提议被分解为子集。语义信息和一致性约束被用于生成最终的实例掩码。侯等人[88]设计了一种预训练方法,该方法可以优雅地微调实例分割网络。为了进一步增强特征开发,将空间信息集成到对比预训练中。唐等人[70]将点云分组为超点,并探索了超点间的空间和语义关系。最终的实例分割通过具有体积约束的聚类来完成。为了解决由于边界框之间的交集导致的标签模糊问题,WISGP [31] 将点分为两个不同的集合。明确集合由具有明确实例标签的点组成,而模糊集合则由归属不确定的点组成。使用多边形网格和超点等几何表示将明确标签传播到相连的模糊点。根据实例分割网络为其余模糊点分配伪标签。使用所有标记点对模型进行重新训练,以产生最终的实例分割结果。One Thing One Click++ [89] 扩展了之前用于弱监督 3D 实例分割的自训练框架。使用 3D-Unet 和关系网络来聚合特征并学习成对相似性。通过注释生成的初始伪标签被迭代更新以优化最终输出。为了进一步减轻对注释的依赖,FreePoint [90] 探索了无监督点云实例分割。 一种多切分算法被用于根据由坐标、颜色、法线和自监督深度特征组成的点特征将点云分组为粗略实例掩码。这种分组为弱监督网络训练生成了伪标签。该框架可以作为无监督预训练的借口集成到有监督的语义实例分割中。上述弱监督方法近年来取得了显著的改进,但它们在处理不平衡数据方面仍然面临困难。

6.基于深度学习的多模态分割

2D 视觉和 NLP 的基础模型的最新进展激发了对 3D 模型中多模态方法的探索[12, 91–98]。例如,Peng 等人[97]提出了一种零样本方法,将点特征与图像和文本共同嵌入。Rozenberszki 等人[12]通过发现点特征和文本特征的联合嵌入空间,提出了一种基于语言的方法。Liu 等人[91]将 2D 的知识转移到 3D 以进行部件分割。Wang 等人[92]训练了一个从视觉、语言和几何中学习的多模态模型,以提高 3D 语义场景理解。Xue 等人[93]通过在预训练期间将它们对齐,引入了图像、文本和 3D 点云的统一表示。Ding 等人[94]为 3D 场景理解任务从视觉语言模型中提炼知识。Zeng 等人[95]通过跨模态对比目标将 3D 表示与开放世界词汇对齐。Zhang 等人[98]通过语言辅助学习进行文本 - 场景配对语义理解。如何利用点云促进和适应多模态以更好地理解场景是值得探索的。这些方法利用了来自视觉和文本的丰富信息,能够更全面地表示室内场景。然而,这些方法需要大量的计算资源,并且预训练高度依赖于有限的多模态数据集。

7.绩效评估

7.1评估指标

室内点云语义分割广泛采用的评估指标包括总体准确率(OA)、平均交并比(mIoU)和平均准确率(mAcc)。

室内点云实例分割的标准评估指标是具有从 0.5 到 0.95 的交并比(IoU)阈值的平均精度均值(mAP)。特别是,mAP@50 是具有 0.5 的 IoU 阈值的平均精度(AP)分数。此外,在 S3DIS 数据集上,平均精度(mPrec)和平均召回率(mRec)是常用的标准。

7.2关于公共数据集的结果

语义分割结果。表 1 和表 2 分别展示了不同方法在 S3DIS Area 5 和 ScanNet v2 上的室内点云语义分割结果。我们可以观察到,最先进的方法比 PointNet [41] 的开创性工作表现更优,mIoU 提升超过 20%。基于 Transformer 的方法[48, 49, 65]在自然语言处理和图像理解取得巨大成功后,近年来已成为主导方法。同时,一些弱监督方法显示了用较少数据实现语义分割的可能性,在 S3DIS Area 5 上达到 mIoU 的 65%以上,在 ScanNet 上达到 70%以上。这些结果令人鼓舞,尽管完全监督方法和弱监督方法之间仍存在差距。期望进一步提高从有限标注数据中提取特征的能力。

例分割结果。表3和表4分别展示了S3DIS Area 5和ScanNet v2上不同方法的室内点云实例分割结果。无检测方法比基于检测的方法受到了更多关注,因为它们尝试以端到端的方式完成实例分割任务。一些网络[31, 68, 70, 87, 89]已经开始从有限的注释中学习实例信息。这些结果清楚地表明,在点云实例分割中使用弱监督学习仍有改进的空间。

8.讨论

点云分割是 3D 室内场景理解中的关键任务。随着 3D 数据集的可用性,基于深度学习的分割方法受到了极大的关注,并为其发展做出了贡献。

 

然而,获得准确的分割结果往往需要密集的标注,这是一个费力且成本高昂的过程。为了减轻对大量标注的依赖,并能够从有限的有标签数据中学习,近年来研究重点已转向弱监督方法。通过探索弱监督框架,研究人员旨在以最小化标注工作和相关成本的同时,实现令人满意的分割结果。尽管点云分割发展迅速,但现有框架仍面临若干挑战。

8.1数据集与表示法

与图像数据集相比,带注释的点云数据的规模仍然有限。尽管获取点云的成本变得可以承受,但为点云添加注释仍然是一项耗时的任务。由于完全监督和预训练[99, 100]都需要大量数据,因此需要具有更多样化场景的更大数据集来推进基于学习的点云分割。因此,需要一种高效且用户友好的针对大型数据集的注释方法。这可以通过具有几何先验的无监督方法来实现。最近开发的数据集,如 ScanNet200 数据集[12],使点云分割中的不平衡学习[101]受到越来越多的关注。

现有的点云分割方法使用不同的数据格式,包括点云、RGB - D 图像、体素和几何基元。每种数据格式在不同的 3D 场景理解中都有其优点和缺点。

处理任务。在基于点的网络基础上,我们现在可以直接处理点云以进行训练和推理。显然,并非所有点对于场景感知都是必需的。对于室内场景点云数据,找到更好的表示形式仍然是一个有前途的研究方向。

8.2数据效率与多模态

对数据使用高效的深度学习框架是非常重要的,因为它们减轻了为训练模型收集大量密集注释的负担。尽管当前的弱监督点云分割方法可以实现与完全监督学习相竞争的性能,但仍有差距需要填补。更重要的是,这些数据高效方法的通用性和鲁棒性并不令人信服,因为它们主要在规模有限的公共数据集上进行测试,而不是在开放世界场景中。因此,对通用模型的进一步探索是未来的趋势。

一种有前景的途径是整合其他模态,例如图像和自然语言。先前的工作[37, 102, 103]已经探索了如何将 2D 图像和 3D 点云相结合以更好地理解场景。2D 视觉和自然语言处理的基础模型的最新发展为研究 3D 数据中的多模态提供了灵感来源[12, 91–98]。虽然这些方法在不同的 3D 任务中取得了令人难以置信的结果,但将其他模态的知识应用于室内点云分割仍然具有挑战性。此外,收集足够的多模态预训练数据可能成本高昂。如何促进和调整点云与多模态的结合以更好地理解室内场景值得探索。

8.3动态场景分割的学习方法

当前基于学习的室内点云分割方法大多是为静态场景设计的。在现实场景中,室内物体可以四处移动,从而更全面地表示室内场景。此外,为这种动态场景进行标注的成本甚至比为 3D 点云标注的成本更高。4D 表示学习已成为动态特征开发的核心。最近的工作[104, 105]探索了 4D 特征提取和提炼,以改进诸如场景分割等下游任务。将此类信息转移到不同规模的室内场景中仍然具有挑战性。开发用于动态场景分割的学习方法是一个值得进一步研究的有趣前景。

9.结论

点云分割在 3D 视觉和智能化中起着关键作用。本文旨在为理解 3D 室内场景的点云分割技术提供一个简洁的概述。首先我们展示了公共 3D 点云数据集,它们是点云分割研究的基础,尤其是对于基于深度学习的方法的基础。其次,我们回顾了室内场景点云分割的代表性方法,包括基于几何的方法和基于深度学习的方法。基于几何的方法提取几何信息,并可与基于深度学习的方法相结合。基于深度学习的方法可分为基于结构化数据的方法和基于点的方法。我们主要考虑基于点的语义和实例分割框架,包括完全监督网络和弱监督网络。最后,我们讨论了该领域的开放问题并概述了未来的研究方向。我们期望本次综述能够为室内场景点云分割领域提供见解,并激发新的研究。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值