三维点云语义分割【综述】 ——Deep Learning for 3D Point Clouds: A Survey

最新推荐文章于 2025-02-05 23:56:45 发布

置顶

橘子果酱CV

最新推荐文章于 2025-02-05 23:56:45 发布

阅读量1.4w

点赞数 12

分类专栏：三维点云文章标签：计算机视觉深度学习人工智能卷积神经网络

本文链接：https://blog.csdn.net/Dujing2019/article/details/104338151

版权

本文详细介绍了3D点云语义分割的多种方法，包括基于投影、点基、循环神经网络和图基的网络。讨论了各种方法的优缺点，如多视图表示、球形表示、体积表示和混合表示，以及点云分割的实例分割技术。这些方法主要通过深度学习技术，如卷积神经网络，来提取点云的特征并进行语义分割。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

3D POINT CLOUD SEGMENTATION

3D点云分割需要了解全局几何结构和每个点的细粒度细节。根据分割粒度，可以将3D点云分割方法分为三类：语义分割（场景级别），实例分割（对象级别）和部件分割（部件级别）。

3D Semantic Segmentation

给定一个点云，语义分割的目标是根据它们的语义将点云分为几个子集。类似于3D形状分类的分类法，存在两种语义分割范例，即基于投影的方法和基于点的方法。我们在图8中显示了几种代表性方法。
在这里插入图片描述

Projection-based Networks

中间正则表示可以组织或分类为多视图表示[148]，[149]，球形表示[150]，[151]，[152]，体积表示[153]，[154]，[155]，多面体如图9所示，可以使用点阵表示[156]，[157]和混合表示[158]，[159]。

Multi-view Representation. Felix等[148]首先从多个虚拟相机视图将3D点云投影到2D平面上。然后，将多流FCN用于预测合成图像上的逐像素得分。每个点的最终语义标签是通过将重新投影的分数融合到不同的视图上而获得的。同样，Boulch等[149]首先使用多个相机位置生成了点云的几个RGB和深度快照。然后使用2D分割网络对这些快照执行逐像素标记。从RGB和深度图像预测的分数将使用残差校正进一步融合[160]。 Tatarchenko等人基于点云是从局部欧几里得表面采样的假设。 [161]介绍了切线卷积的密集点云分割。该方法首先将围绕每个点的局部曲面几何投影到虚拟切线平面。然后，切线卷积直接在曲面几何上进行运算。该方法显示了出色的可伸缩性，并且能够处理具有数百万个点的大规模点云。总体而言，多视图分割方法的性能对视点选择和遮挡很敏感。此外，这些方法还没有充分利用基础的几何和结构信息，因为投影步骤不可避免地会导致信息丢失。

Spherical Representation. 为了实现3D点云的快速准确分割，Wu等[150]提出了一个基于SqueezeNet [162]和条件随机场（CRF）的端到端网络。为了进一步提高分割精度，引入了SqueezeSegV2 [151]，以利用无监督的域自适应流水线解决域移位问题。 Milioto等。 [152]提出了RangeNet ++用于LiDAR点云的实时语义分割。首先将2D范围图像的语义标签传输到3D点云，然后使用有效的基于GPU的KNN基于后处理的步骤来减轻离散化错误和推理输出模糊的问题。与单视图投影相比，球形投影保留了更多信息，并且适合于LiDAR点云的标记。但是，这种中间表示不可避免地带来了一些问题，例如离散化误差和遮挡。

Volumetric Representation. Huang等[163]首先将点云划分为一组占用体素。然后，他们将这些中间数据输入到全3D卷积神经网络中，以进行体素分割。最后，为体素内的所有点分配与体素相同的语义标签。该方法的性能受到体素的粒度和由点云分区引起的边界伪像的严重限制。此外，Tchapmi等。 [164]提出了SEGCloud来实现细粒度和全局一致的语义分割。这种方法引入了确定性三线性插值，将3D-FCNN [165]生成的粗体素预测映射回点云，然后使用完全连接CRF（FCCRF）来增强这些推断的点标签的空间一致性。孟等[153]引入了基于内核的内插变分自动编码器架构，以编码每个体素内的局部几何结构。代替二进制占用表示，对每个体素采用RBF以获得连续表示并捕获每个体素中点的分布。 VAE进一步用于将每个体素内的点分布映射到紧凑的潜在空间。然后，对称组和等效CNN均用于实现鲁棒的特征学习。

良好的可伸缩性是体积表示的显着优点之一。具体来说，基于体积的网络可以自由地在具有不同空间大小的点云中进行训练和测试。在全卷积点网络（FCPN）[154]中，首先从点云中分层提取不同级别的几何关系，然后使用3D卷积和加权平均池来提取特征并合并远程依赖项。该方法可以处理大规模的点云，并且在推理过程中具有良好的可伸缩性。Angela等[166]提出了ScanComplete，以实现3D扫描完成和逐像素语义标注。该方法利用了全卷积神经网络的可伸缩性，可以在训练和测试期间适应不同的输入数据大小。从粗到精策略用于分层提高预测结果的分辨率。体积表示自然是稀疏的，因为非零值的数量只占很小的百分比。因此，在空间稀疏数据上应用密集卷积神经网络效率低下。为此，Graham等[155]提出了子流形稀疏卷积网络。该方法通过将卷积的输出限制为仅与占用的体素有关，从而大大减少了内存和计算成本。同时，其稀疏卷积还可以控制所提取特征的稀疏性。该子流形稀疏卷积适用于高维和空间稀疏数据的有效处理。此外，Choy等 [167]提出了一种称为MinkowskiNet的4D时空卷积神经网络，用于3D视频感知。为了有效处理高维数据，提出了一种广义的稀疏卷积算法。三边平稳条件随机字段被进一步应用以增强一致性。

总体而言，体积表示自然保留了3D点云的邻域结构。它的常规数据格式还允许直接应用标准3D卷积。这些因素导致了该领域性能的稳步提高。然而，体素化步骤固有地引入了离散化伪像和信息丢失。通常，高分辨率会导致较高的内存和计算成本，而低分辨率会导致细节丢失。在实践中选择合适的网格分辨率并非易事。

Permutohedral Lattice Representation. Su等[156]提出了基于双边卷积层（BCL）的稀疏格子网络（SPLATNet）。该方法首先将原始点云插值到四面体的稀疏晶格，然后将BCL应用于在稀疏填充的晶格的占据部分进行卷积。然后将滤波后的输出内插回原始点云。另外，该方法允许灵活地联合处理多视图图像和点云。此外，Rosu等 [157]提出了LatticeNet来实现大点云的有效处理。还引入了称为DeformsSlice的与数据相关的插值模块，以将晶格特征反投影到点云。

Hybrid Representation. 为了进一步利用所有可用信息，已经提出了几种方法来从3D扫描中学习多模式特征。 Angela和Matthias [158]提出了一个联合3D多视图网络，以结合RGB特征和几何特征。使用3D CNN流和几个2D流来提取特征，并提出了一个可微的反投影层，以联合融合学习到的2D嵌入和3D几何特征。此外，洪等。 [168]提出了一个基于点的统一框架，以从点云中学习2D纹理外观，3D结构和全局上下文特征。该方法直接应用基于点的网络从稀疏采样的点集中提取局部几何特征和全局上下文，而无需任何体素化。 Jaritz等[159]提出了Multiview PointNet（MVPNet）来聚合2D多视图图像的外观特征和规范点云空间中的空间几何特征。

Point-based Networks

基于点的网络直接在不规则点云上工作。但是，点云是无序的且没有结构，因此直接应用标准CNN并不可行。为此，提出了开拓性的工作PointNet [5]以使用共享MLP学习每点特征，并使用对称池功能学习全局特征。基于PointNet，最近提出了一系列基于点的网络。总体而言，这些方法可以粗略地分为pointwise MLP methods, point convolution methods, RNN-based methods, and graph-based methods.

Pointwise MLP Methods. 这些方法通常使用共享MLP作为其网络中的基本单位，以提高效率。然而，由共享的MLP提取的逐点特征不能捕获点云中的局部几何以及点之间的交互[5]。为了捕获每个点的更广泛的上下文并学习更丰富的局部结构，已引入了几个专用网络，包括基于相邻特征池，基于注意力的聚合以及局部全局特征串联的方法。

Neighboring feature pooling: 为了捕获局部几何图案，这些方法通过聚集来自局部相邻点的信息来学习每个点的特征。特别是，PointNet ++ [27]将点从更大的局部区域中分层并逐步学习，如图10所示。还提出了多尺度分组和多分辨率分组，以克服由不均匀和密度变化引起的问题。点云。后来，江等。 [114]提出了一个PointSIFT模块来实现定向编码和尺度感知。该模块通过三阶段有序卷积操作对来自八个空间方向的信息进行堆叠和编码。提取并连接多尺度特征，以实现对不同尺度的适应性。与PointNet ++中使用的分组技术（即球查询）不同，Francis等人。 [169]利用K-means聚类和KNN分别定义了世界空间和学习特征空间中的两个邻域。基于预期来自同一类的点在特征空间中更近的假设，引入成对的距离损失和质心损失以进一步规范化特征学习。为了模拟不同点之间的相互作用，Zhao等[31]提出了PointWeb来通过密集构建本地完全链接的网络来探索本地区域中所有点对之间的关系。提出了一种自适应特征调整（AFA）模块来实现信息交换和特征细化。此聚合操作有助于网络学习具有区别性的特征表示。张等[170]基于同

最低0.47元/天解锁文章