三维点云分割综述（下）

最新推荐文章于 2025-03-14 19:53:32 发布

3Ｄ视觉工坊

最新推荐文章于 2025-03-14 19:53:32 发布

阅读量6.5k

点赞数 3

文章标签：卷积神经网络算法编程语言计算机视觉

原文链接：https://mp.weixin.qq.com/s/wjxQwD96kh7zlQ316AhRJQ

版权

本文转载自公众号@点云PCL，三维点云分割综述（下） :https://mp.weixin.qq.com/s/wjxQwD96kh7zlQ316AhRJQ

这是一篇综述性论文，以下只做概述性介绍，介绍文章已共享在微信群和免费知识星球中，文章在公众号将分成三个部分:

第一部分介绍点云的获取以及各种传感器获取点云的特性，以及分割概念的区别。三维点云分割综述（上）

第二部分介绍基于点云的传统的分割方法。三维点云分割综述（中）

第三部分介绍基于深度学习的语义分割方法。

摘要

点云语义分割（PCSS）的过程类似于基于聚类的PCS。但与非语义分割的PCS方法相比，PCSS会为每个点生成语义信息，并且不仅限于聚类方式（无监督学习）。因此，PCSS通常通过有监督的学习方法来实现，包括常规的有监督机器学习和最新的深度学习方法。

A.常规的有监督机器学习

在本节中，常规的有监督机器学习是指非深度的监督学习算法。很多研究者已经提供了基于常规的有监督机器学习的多种PCSS方法之间的综述和比较分析。

论文[5]指出，应用于PCSS的有监督机器学习可以分为两组：

1. 个体的PCSS，仅根据其各个特征对每个点或每个点簇进行分类，例如基于高斯混合模型的最大似然分类器，支持向量机SVM，AdaBoost ，，级联的二进制分类器，随机森林和贝叶斯判别分类器。

2. 考虑上下文的统计模型，例如关联和非关联马尔可夫网络，条件随机(CRF) ，简化的马尔可夫随机场模型，关注于点云统计数据和不同尺度上的关系信息的多阶段推理过程，以及建模数据固有的中长期依赖关系的空间推理机。

PCSS中的个体分类的一般过程。如图3所示，该过程分为四个阶段：邻域选择，特征提取，特征选择和语义分割。对于每个阶段，论文总结了几种关键方法，并在两个数据集上测试了不同的方法以比较其性能。根据作者的实验，在个体的PCSS中，随机森林分类器在两个数据集的准确性和效率之间取得了很好的权衡。

图 3. PCSS框架。

由于个体PCSS并未考虑点的上下文（与临近点）特征，因此个体点云分类器虽然也能有效地工作，但会不可避免地产生噪声，从而导致PCSS结果不平滑。统计上下文模型可以缓解此问题。条件随机字段（CRF）是PCSS中使用最广泛的上下文模型。Niemeyer等[87]提供了关于如何在PCSS上使用CRF的非常清晰的介绍，并在Vaihingen数据集上测试了几种基于CRF的方法。基于独立的PCSS框架[95]，Landrieu等人[97]提出了一个新的PCSS框架，该框架结合了个体分类和上下文分类。如图4所示，在此框架中，引入了一种基于图的上下文策略来克服初始标记产生的噪声问题，该过程被称为结构正则化或“平滑”。

对于正则化过程，Li等人[111]利用多标签图分割算法对支持向量机（SVM）的初始分割结果进行优化。Landrieu等人[97]比较了他们研究中的各种后处理方法，证明了正则化方法的加入确实提高了PCSS的准确性。

B.深度学习

深度学习是当前模式识别，计算机视觉和数据分析中最有影响力，发展最快的前沿技术[179]。顾名思义，深度学习使用两个以上的隐藏层来从训练数据中提取到更高维的特征，而传统的人工特征是由专家使用特定领域的知识设计出来的。在应用于3D数据之前，深度学习已成为2D计算机视觉和图像处理中各种任务的有效力量，例如图像识别[180]，[181]，对象检测[182]，[183]和语义分割[184]，[185]。自2015年以来，随着基于多视图的思想[186]和基于体素的3D卷积神经网络思想方法[186]的先后出现，深度学习方法在 3D分析领域引起了更多的关注。

最初为栅格图像设计的标准卷积无法直接应用于PCSS，因为相较于2D图像数据而言点云数据是无序的，非结构化的/不规则的/非栅格的。因此，为了解决该问题，对原始点云的变换变得必不可少。根据输入到神经网络的数据格式，基于深度学习的PCSS方法可以分为三类：

基于多视图(Multiview-based)；
基于体素(Voxel-based)；
基于点(Point-based)。

基于多视图

将深度学习应用于3D的早期解决方案之一是降维。简而言之，3D数据由多视图2D图像表示，可以基于2D CNN对其进行处理。随后，分类结果可以恢复为3D。在3D分析中最具影响力的多视图深度学习是MVCNN [186]。尽管原始的MVCNN算法没有在PCSS上进行实验，但这是学习多视图概念的一个很好的例子。

基于多视图的方法已经很好地解决了点云数据的结构化问题，但是这些方法存在两个严重的缺点。首先，由于2D多视图图像只是3D场景的近似值，因此它们会导致许多局限性和几何结构损失。诸如PCSS之类的复杂任务可能会产生有限且不令人满意的效果。其次，多视图投影图像必须覆盖包含点的所有空间。对于大型，复杂的场景，很难为多视图投影选择足够的适当视点。因此，很少有研究将基于多视图的深度学习架构用于PCSS。SnapNet [9] [67]是一个例外，它使用Semantic3D.net的完整semantic-8数据集作为测试数据集。图5显示了SnapNet的工作流程。在SnapNet中，预处理步骤旨在抽取点云，计算点特征并生成网格。Snap生成是基于各种虚拟相机生成网格的RGB图像和深度合成图像。语义标注（Semantic labeling）是通过图像深度学习从两个输入图像中实现图像语义分割。最后一步是将2D语义分割结果投影回3D空间，从而可以获取3D语义。

图5. SnapNet的工作流程

基于体素

将体素与3D CNNs结合是基于深度学习的PCSS中的另一种早期方法。体素化解决了原始点云的无序和非结构化问题。像2D神经网络中的像素一样，体素化的数据可以通过3D卷积进一步处理。

基于体素的体系结构仍然存在严重缺陷。与点云相比，体素结构是低分辨率形式。显然，数据表示存在损失。另外，体素结构形式会占用大量存储空间，这可能导致较高的计算和内存要求。

最著名的基于体素的3D-CNN是VoxNet [187]，但这仅针对对象检测进行了测试。关于PCSS任务，一些论文，例如[69]，[98]，[188]和[189]，提出了代表性框架。SegCloud [98]是一个端到端的PCSS框架，结合了3D-FCNN，三线性插值（TI）和完全连接的条件随机字段（FC-CRF）来完成PCSS任务。图6显示了SegCloud的框架，该框架还提供了基于体素的语义分割任务的基本流程。在SegCloud中，预处理步骤是对原始点云进行体素化。然后，将3D全卷积神经网络应用于生成降采样的体素标签。之后，采用三线性插值层将体素标签转移回3D点标签。最后，使用3D全连接CRF方法对之前的3D PCSS结果进行正则化，并获取最终结果。SegCloud也曾一度成为S3DIS和Semantic3D.net数据集上最先进方法，但是它并没有采取任何步骤来优化固定大小体素的高计算量和内存问题。随着更多高级方法的涌现，SegCloud近年来已不再受到青睐。

为了减少不必要的计算和内存消耗，灵活的八叉树结构可以有效替代3D CNNs中的固定大小的体素。OctNet和O-CNN是两种代表性的方法。最近，VV-NET [189]扩展了体素的使用。VV-Net利用基于径向基函数的变分自动编码器（VAE）网络，与固定大小的体素相比，该网络为点云提供了更为丰富的信息表示。

直接处理点云深度学习

由于基于多视图和基于体素的方法都存在严重局限性（如结构分辨率下降），因此直接在点上探索PCSS方法是一种自然选择。到目前为止已经出现了许多方法，并且仍在不断发展中[1] – [3]，[119]，[120]。与在基于多视图和基于体素的情况下采用单独的预变换操作不同，在这些方法中，规范化与神经网络体系结构绑定在一起。

PointNet [1]是一个开创性的深度学习框架，直接在Point上执行。与最近发布的点云网络不同，PointNet中没有卷积运算。PointNet的基本原理是：

是对称函数，来解决点云的顺序问题。如图7所示，PointNet使用多层感知机（MLP）来近似函数h，代表了每个点所提取到的局部特征。点集的全局特征g是通过对称函数最大池化从而对集合中所有每个点的局部特征聚合得来的。对于分类任务，可以通过针对全局要素的MLP操作生成k个类别的输出分数。对于PCSS任务，除了全局特征外，还要求每个点的局部特征。PointNet将聚合的全局特征和每个点的局部特征进行连接操作（Concat）。随后，MLP从合并的点的特征中提取新的特征。在它们的基础上，可以预测出每个点对应的语义标签。

图7. PointNet [1]的工作流程，在该图中，“分类网络”用于对象分类，“分割网络”用于PCSS任务

尽管越来越多的新发布的网络在各种基准数据集上都优于PointNet，但PointNet仍然是PCSS研究的基准。原始PointNet在相邻点内不使用任何局部结构信息。在进一步的研究中，Qi等人[120]使用分层神经网络能够捕获局部几何特征的PointNet ++，以改进最初的PointNet模型。借鉴PointNet / PointNet ++的灵感，对3D深度学习的研究着重于特征增强，尤其是点之间的局部特征/关系，利用其他领域的知识来提高基本PointNet / PointNet ++算法的性能。例如，Engelmann等人[190]在PointNet上采用了两个扩展，以合并更大范围的空间环境。Wang等[3]认为缺少局部特征在PointNet ++中仍然是一个问题，因为它忽略了单个点与其相邻点之间的几何关系。为了克服这个问题，Wang等人[3]提出了动态图CNN（DGCNN）网络模型。在该网络中，作者设计了一个名为EdgeConv的过程，以在保持排列不变性的同时提取边缘特征。受到注意力机制的启发，Wang等人[112]设计了一个图注意力卷积（GAC），其中的卷积内核可动态地适应对象的结构。GAC可以捕获点云的结构特征，同时避免对象之间的特征污染。为了利用更丰富的边缘特征，Landrieu和Simonovsky [2]引入了超点图模块（SPG），提供点云对象的部分而非点与点间的上下文关系的紧凑和丰富表示。可以将超点的划分视为非语义的预分割和下采样步骤。在SPG构建之后，每个超点都被嵌入到基本的PointNet网络中，然后在用于PCSS的门控循环单元（GRU）中进行完善。受益于信息量丰富的下采样操作，SPG对于大量数据集非常高效。

同样，为克服PointNet中没有由相邻点表示的局部特征的缺点，3P-RNN [99]加入了逐点金字塔合并模块（3P）来捕获每个点的局部特征。此外，它采用双向递归神经网络（RNN）模型将远程上下文集成到PCSS任务中。3P-RNN技术牺牲很小的额外开销提高了整体精度。Komarichev等[125]引入了一种环形卷积，它可以通过在计算中指定环形结构和方向来捕获局部邻域，并在信号处理级别适应几何可变性和可伸缩性。由于在PointNet ++中进行K近邻搜索可能会导致K近邻陷入一个方向这一事实，Jiang等人[121]设计了PointSIFT来从八个方向捕获局部特征。在整个体系结构中，PointSIFT模块通过堆叠几个方向编码（OE）单元来实现多尺度表示。PointSIFT模块可以集成到各种基于PointNet的3D深度学习架构中，以提高3D形状的表示能力。PointWeb [126]建立在PointNet ++的基础上，利用自适应特征调整（AFA）模块来查找点之间的联系，AFA的目的还在于捕获和汇总点的局部特征。

此外，基于PointNet / PointNet ++，甚至可以在PCSS的协助下完成实例分割。例如，Wang等[127]提出了相似性组提议网络（SGPN）。SGPN是第一个发布的点云实例细分框架。Yi等[128]提出了一个基于区域的PointNet（R-PointNet），R-PointNet的核心模块称为“Generative Shape Proposal Network（GSPN）”，其基础是PointNet。Pham等[124]应用了多任务点向网络（MT-PNet）和多值条件随机场（MV-CRF）来同时解决PCSS和实例分割问题。MV-CRF实现了语义和实例的优化。Wang等[123]提出了一个关联的分割实例和语义（ASIS）模块，使PCSS和实例分割可以相互利用，从而实现双赢。在[123]中，使用的网络也是PointNet和PointNet ++。

越来越多的研究人员选择卷积作为PointNet的替代方法，他们将卷积作为基础和重要组成部分，他们对基于点的学习有了更深的理解。上面已经介绍了其中的一些，例如[3]，[112]，[125]。另外，PointCNN使用X变换而不是对称函数来规范点云的顺序[119]，这是CNN的泛化，可以从无序和无结构的点云中学习特征。Su等[68]提供了一个PCSS框架，该框架可以将2D图像与3D点云融合在一起，称为SParse LATtice Networks（SPLATNet），即使在稀疏区域中也可以保留空间信息。递归切片网络（RSN）[118]利用一系列的多个1*1卷积层进行特征学习，并利用切片池化层来解决原始点云的无序问题，然后将RNN模型应用于有序序列，以进行局部依赖性建模。Te等[191]提出了正则化图CNN方法（RGCNN），并在零件分割数据集ShapeNet [192]中对其进行了测试。实验表明，RGCNN可以降低计算复杂度，并且对低密度和噪声具有鲁棒性。关于卷积核作为由权重和密度函数组成的3D点局部坐标的非线性函数，Wu等人[122]提出了PointConv。PointConv是3D连续卷积算子的蒙特卡洛近似的扩展。PCSS通过PointConv的反卷积版本实现。更令人惊喜的是，Choy等[70]提出了用于处理3D视频的4维卷积神经网络（MinkowskiNets），这是一系列用于包含4D时空数据的高维空间的CNN。MinkowskiNets也可以应用于3D PCSS任务。他们在一系列PCSS基准数据集上取得了良好的性能，尤其是ScanNet的准确性显着提高[43]。

由于SPG [2]，DGCNN [3]，RGCNN [191]和GAC [112]在神经网络中采用了图结构，它们也可以被视为3D中的图神经网络（GNN）[193]，[194]，也是近来研究的一个重要方向。

总结

基于深度学习的PCSS研究仍在进行中。关于基于3D深度学习的框架的新思想和方法不断涌现。当前的成就证明，这些深度学习方法已经极大地提高了3D PCSS的准确性。

C.混合方法

近年来，在PCSS任务中，混合分割方法已引起研究人员的关注。混合方法通常至少由两个阶段组成：

（1）使用过分割或PCS算法（作为预分割，上篇文章三维点云分割综述（中）介绍）。（2）在（1）基础上而非原始点上再进行语义分割操作。

通常，与PCS中的预分割一样，PCSS中的预分割也具有两个主要作用：减少数据量和提取局部特征。超体素的过分割是PCSS中的一种预分割算法[110]，因为它是一种以轻度的精度损失为代价减少数据量的有效方法。另外，由于非语义PCS方法可以提供丰富的原始局部特征，因此一些PCSS研究中也将它们用作预分割模块。例如，Zhang等[4]在SVM前就采用了生长区域。Vosselman等[88]应用HT在其PCSS算法框架中生成平面斑块作为预分割。在深度学习中，Landrieu和Simonovsky [2]利用超点图结构作为预分割步骤，并提供了将超点图与PointNet和上下文分割相结合的上下文PCSS网络。Landrieu和Boussaha [100]使用一种监督算法来实现预分割，这是第一个针对3D点云过分割的有监督框架。

向上滑动阅览

[1] C. R. Qi, H. Su, K. Mo, and L. J. Guibas, “Pointnet: Deep learning on point sets for 3d classification and segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 652–660, 2017.

[2] L. Landrieu and M. Simonovsky, “Large-scale point cloud semantic segmentation with superpoint graphs,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 4558–4567, 2018.

[3] Y. Wang, Y. Sun, Z. Liu, S. E. Sarma, M. M. Bronstein, and J. M. Solomon, “Dynamic graph cnn for learning on point clouds,” arXiv preprint arXiv:1801.07829, 2018.

[4] J. Zhang, X. Lin, and X. Ning, “Svm-based classification of segmented airborne lidar point clouds in urban areas,” Remote Sensing, vol. 5, no. 8, pp. 3749–3775, 2013.

[5] M. Weinmann, A. Schmidt, C. Mallet, S. Hinz, F. Rottensteiner, and B. Jutzi, “Contextual classification of point cloud data by exploiting individual 3d neigbourhoods,” ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences II-3 (2015), Nr. W4, vol. 2, no. W4, pp. 271–278, 2015.

[6] Z. Wang, L. Zhang, T. Fang, P. T. Mathiopoulos, X. Tong, H. Qu, Z. Xiao, F. Li, and D. Chen, “A multiscale and hierarchical feature extraction method for terrestrial laser scanning point cloud classification,” IEEE Transactions on Geoscience and Remote Sensing, vol. 53, no. 5, pp. 2409–2425, 2015.

[7] H. S. Koppula, A. Anand, T. Joachims, and A. Saxena, “Semantic labeling of 3d point clouds for indoor scenes,” in Advances in neural information processing systems, pp. 244–252, 2011.

[8] Y. Lu and C. Rasmussen, “Simplified markov random fields for efficient semantic labeling of 3d point clouds,” in 2012 IEEE/RSJ International Conference on Intelligent Robots and Systems, pp. 2690–2697, IEEE, 2012.

[9] A. Boulch, B. Le Saux, and N. Audebert, “Unstructured point cloud semantic labeling using deep segmentation networks.,” in 3DOR, 2017.

[10] P. Tang, D. Huber, B. Akinci, R. Lipman, and A. Lytle, “Automatic reconstruction of as-built building information models from laser-scanned point clouds: A review of related techniques,” Automation in construction, vol. 19, no. 7, pp. 829–843, 2010.

[11] R. Volk, J. Stengel, and F. Schultmann, “Building information modeling (bim) for existing buildingsliterature review and future needs,” Automation in construction, vol. 38, pp. 109–127, 2014.

[12] K. Lim, P. Treitz, M. Wulder, B. St-Onge, and M. Flood, “Lidar remote sensing of forest structure,” Progress in physical geography, vol. 27, no. 1, pp. 88–106, 2003.

[13] L. Wallace, A. Lucieer, C. Watson, and D. Turner, “Development of a uav-lidar system with application to forest inventory,” Remote Sensing, vol. 4, no. 6, pp. 1519–1543, 2012.

[14] R. B. Rusu, Z. C. Marton, N. Blodow, M. Dolha, and M. Beetz, “Towards 3d point cloud based object maps for household environments,” Robotics and Autonomous Systems, vol. 56, no. 11, pp. 927–941, 2008.

[15] X. Chen, H. Ma, J. Wan, B. Li, and T. Xia, “Multi-view 3d object detection network for autonomous driving,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 1907–1915, 2017.

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计汇总等。

下载3

在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。

汇总|国内最全的3D视觉学习资源，涉及计算机视觉、SLAM、三维重建、点云处理、姿态估计、深度估计、3D检测、自动驾驶、深度学习（2D+3D）、图像处理、立体视觉、结构光等方向：https://mp.weixin.qq.com/s/xyGndcupuK1Zzmv1AJA5CQ