【最新综述】史上最全面的3D语义分割综述（中）

最新推荐文章于 2025-02-26 21:22:49 发布

AI_Med

最新推荐文章于 2025-02-26 21:22:49 发布

阅读量2.6k

点赞数 22

分类专栏：三维点云语义分割三维点云处理学习文章标签： 3d

本文链接：https://blog.csdn.net/qq_43583311/article/details/135673168

版权

三维点云处理学习同时被 2 个专栏收录

16 篇文章

订阅专栏

三维点云语义分割

7 篇文章

订阅专栏

Deep Learning Based 3D Segmentation: A Survey

3. 3D Semantic segmentation

文献中提出了许多关于三维语义分割的深度学习方法。根据所使用的数据表示方式，这些方法可分为五类，即基于 RGB-D 图像的方法、基于投影图像的方法、基于体素的方法、基于点的方法、基于三维视频的方法和基于其他表示方式的方法。根据网络架构，基于点的方法可进一步分为基于多层感知器（MLP）的方法、基于点卷积的方法、基于图卷积的方法和基于点变换器的方法。图 4 显示了近年来深度学习在三维语义分割方面取得的阶段性成果。

3.1. RGB-D Based

RGB-D 图像中的深度图包含真实世界的几何信息，有助于区分前景物体和背景，从而为提高分割精度提供了机会。在这一类别中，通常使用经典的双通道网络分别从 RGB 和深度图像中提取特征。然而，这种简单的框架不足以提取丰富而精细的特征。为此，研究人员在上述简单的双通道框架中集成了几个附加模块，通过学习对语义分割至关重要的丰富上下文和几何信息来提高性能。这些模块大致可分为六类：多任务学习、深度编码、多尺度网络、新型神经网络架构、数据/特征/分数级融合和后处理（见图 5）。表 2 总结了基于 RGB-D 图像的语义分割方法。

多任务学习：深度估算和语义分割是计算机视觉领域的两项基本挑战任务。由于物体内部的深度变化比不同物体之间的深度变化要小，因此这两项任务也有一定的关联性。因此，许多研究人员选择将深度估计任务和语义分割任务结合起来。从这两项任务的关系来看，多任务精简框架主要有两类：级联框架和并行框架。

至于级联框架，深度估计任务为语义分割任务提供深度图像。例如，Cao 等人，Cao, Shen and Shen（2016）使用了 Liu 等人，Liu, Shen, Lin and Reid（2015）引入的深度卷积神经场（DCNF）进行深度估计。估计出的深度图像和 RGB 图像被送入双通道 FCN 进行语义分割。同样，Guo 等人、Guo 和 Chen（2018）采用了 Ivanecky Ivaneck` y（2016）提出的深度网络，用于从单幅 RGB 图像自动生成深度图像，然后在 RGB 和预测深度图的图像对上提出了双通道 FCN 模型，用于像素标注。

级联框架分别执行深度估计和语义分割，无法同时对两个任务进行端到端训练。因此，深度估算任务无法从语义分割任务中获益。相比之下，并行框架在一个统一的网络中执行这两项任务，可以让两项任务相互受益。例如，Wang 等人（Wang, Shen, Lin, Cohen, Price and Yuille，2015 年）使用联合全局 CNN 利用 RGB 图像的像素深度值和语义标签来提供精确的全局尺度和语义引导。此外，他们还使用联合区域 CNN 从 RGB 图像中提取区域深度值和语义图，以学习详细的深度和语义边界。Mousavian 等人，Mousavian、Pirsiavash 和 Košecká（2016 年）提出了一种多尺度 FCN，由五个流组成，可同时探索不同尺度的深度和语义特征，其中这两个任务共享底层特征表示。Liu等人：Liu、Wang、Li、Fu、Li和Lu（2018b）提出了一种协同去卷积神经网络（C-DCNN），对这两项任务进行联合建模。然而，从 RGB 图像估算出的深度图质量不如直接从深度传感器获取的深度图。这种多任务学习管道在 RGB-D 语义分割中逐渐被放弃。

深度编码：传统的二维 CNN 无法利用原始深度图像中丰富的几何特征。另一种方法是将原始深度图像编码成适合二维 CNN 的其他表示形式。Hoft 等人，Höft、Schulz 和 Behnke（2014 年）使用简化版的定向梯度直方图（HOG）来表示 RGB-D 场景中的深度通道。Gupta 等人、Gupta、Girshick、Arbeláez 和 Malik（2014 年）以及 Aman 等人、Lin、Chen、Cohen-Or、Heng 和 Huang（2017 年）计算出了三个新的深度通道，从原始深度图像中提取出名为水平差距、离地高度和重力角（HHA）的通道。Liu 等人（Liu, Wu, Wang and Qian，2018a）指出了 HHA 的局限性，即某些场景可能没有足够的水平和垂直平面。因此，他们提出了一种新颖的重力方向检测方法，利用垂直线拟合来学习更好的表示方法。Hazirbas 等人，Hazirbas、Ma、Domokos 和 Cremers（2016 年）也认为，HHA 表示法的计算成本较高，包含的信息也比原始深度图像少。他们提出了一种名为 FuseNet 的架构，该架构由两个编码器-解码器分支组成，包括一个深度分支和一个 RGB 分支，可直接编码深度信息，降低计算负荷。

多尺度网络：多尺度网络学习到的上下文信息对于小物体和详细区域的分割非常有用。Couprie 等人，Couprie、Farabet、Najman 和 LeCun（2013 年）应用多尺度卷积网络直接从 RGB 图像和深度图像中学习特征。Aman 等人，Raj、Maturana 和 Scherer（2015 年）提出了一种用于分割的多尺度深度 ConvNet，其中 VGG16-FC 网络的粗预测在 Scale-2 模块中进行上采样，然后与 Scale-1 模块中 VGG-M 网络的低级预测进行串联，从而获得高低级别特征。然而，这种方法对场景中的杂波很敏感，导致输出错误。Lin 等人（2017）利用了较低场景分辨率区域具有较高深度，而较高场景分辨率区域具有较低深度这一事实。他们利用深度图将相应的彩色图像分割成多个场景分辨率区域，并引入了上下文感知感受野（CaRF），重点对某些场景分辨率区域进行语义分割。这使得他们的管道成为一个多尺度网络。

新型神经网络：由于 CNN 采用固定网格计算，其处理和利用几何信息的能力有限。因此，研究人员提出了其他新型神经网络架构，以更好地利用几何特征以及 RGB 和深度图像之间的关系。这些架构可分为五大类。

改进的二维卷积神经网络（2D CNNs）受级联特征网络的启发，Lin 等人（2017 年）、Jiang 等人、Jiang、Zhang、Huang 和 Zheng（2017 年）提出了一种新颖的密集敏感全卷积神经网络（DFCN），该网络利用特征融合策略将深度信息纳入网络的早期层。随后是几个扩张卷积层，以利用上下文信息。同样，Wang 等人和 Neumann（2018 年）提出了一种深度感知 2D CNN，引入了两个新颖的层，即深度感知卷积层和深度感知池化层，这两个层是基于具有相同语义标签和相似深度的像素应该对彼此有更大影响这一先验。

解卷积神经网络（DeconvNets）是细化分割图的一种简单而有效的解决方案。Liu 等人（2018b）和 Wang 等人（2016）都采用 DeconvNet 进行 RGB-D 语义分割，因为其性能良好。然而，由于高层预测图聚合了大量上下文进行密集预测，DeconvNet 的潜力有限。为此，Cheng 等人（Cheng, Cai, Li, Zhao and Huang，2017 年）提出了一种对局部敏感的 DeconvNet（LS-DenconvNet），用于完善深度和彩色图像的边界分割。LSDeconvNet 将原始 RGB-D 数据中的局部视觉和几何线索纳入每个 DeconvNet，从而能够在恢复清晰物体边界的同时，对具有大上下文的粗卷积图进行上采样。

循环神经网络（RNN）可以捕捉像素之间的长距离依赖关系，但主要适用于单一数据通道（如 RGB）。Fan 等人，Fan、Mei、Prokhorov 和 Ling（2017 年）将单模态 RNN 扩展为多模态 RNN（MM-RNN），应用于 RGBD 场景标注。MM-RNNs 允许深度和颜色通道共享 "内存"。每个通道不仅拥有自己的特征，而且还拥有其他通道的属性，从而使学习到的特征在语义分割时更具区分性。Li 等人：Li、Gan、Liang、Yu、Cheng 和 Lin（2016 年）提出了一种新颖的长短期记忆上下文融合（LSTM-CF）模型，用于捕捉和融合来自 RGB 和深度图像多个通道的上下文信息。

图神经网络（GNN）首次被 Qi 等人用于 RGB-D 语义分割。Qi、Liao、Jia、Fidler 和 Urtasun（2017c）根据深度信息将二维 RGB 像素投射到三维空间，并将三维点与语义信息相关联。然后，他们根据三维点建立了一个 k 近邻图，并应用三维图神经网络（3DGNN）进行像素预测。

Transformers在 RGB 图像分割中大受欢迎，并被扩展到 RGB-D 分割中。为此，研究人员提出了各种利用Transformers的方法。Ying 和 Chuah（2022 年）提出了 "不确定性感知自我注意"（Uncertainty-Aware Self-Attention）的概念，在特征提取过程中明确管理从不可靠深度像素到可靠深度像素的信息流。这种方法旨在解决 RGB-D 分割中因噪声或不确定深度信息带来的挑战。Wu 等人的另一项研究：Wu、Zhou、Allibert、Stolz、Demonceaux 和 Ma（2022c）直接采用 Swin-Transformer 来同时利用 RGB 和深度特征。通过利用自注意机制，该方法捕捉到了长距离依赖关系，并能有效融合 RGB 和深度信息进行分割。受到 Swin-Transformer 成功的启发，Yang 等人提出了一种分层 Swin-RGBD 算法。该模型结合并利用了深度信息，以补充和增强 RGB 图像中模糊不清的特征。分层架构允许多尺度特征学习，并能更有效地整合 RGB 和深度信息。

数据/特征/分数融合：纹理（RGB 通道）和几何（深度通道）信息的融合对于准确的语义分割非常重要。有三种融合策略：数据级、特征级和分数级，分别指早期、中期和晚期融合。一种简单的数据级融合策略是将 RGB 和深度图像串联成四个通道，直接输入 CNN 模型，例如 Couprie 等人（Couprie et al.）然而，这种数据级融合无法利用深度和光度通道之间的强相关性。另一方面，特征级融合可以捕捉到这些相关性。例如，Li 等人（2016 年）提出了一种记忆融合层，以数据驱动的方式自适应融合垂直深度和 RGB 上下文。他们的方法沿水平方向进行双向传播，以保持真实的二维全局上下文。同样，Wang 等人（2016 年）提出了一种特征转换网络，它将深度和颜色通道关联起来，并在单一通道中桥接卷积网络和解卷积网络。特征变换网络可以发现单通道中的特定特征以及两个通道之间的共同特征，从而使两个分支共享特征，提高共享信息的表示能力。上述复杂的特征层融合模型被插入到 RGB 和深度通道之间的特定同层中，这不仅难以训练，而且忽略了其他同层特征融合。为此，Hazirbas 等人 Hazirbas 等人（2016 年）和 Jiang 等人 Jiang 等人（2017 年）以元素求和的方式进行融合，在两个通道之间融合多个同层的特征。Wu 等人（2022c）提出了一种新颖的基于变换器的融合方案，命名为 TransD-Fusion，以更好地模拟远距离上下文信息。

后期处理：用于 RGB-D 语义分割的 CNN 或 DCN 的结果通常非常粗糙，导致边界粗糙和小物体消失。解决这一问题的常用方法是将 CNN 与条件随机场 (CRF) 相结合。Wang 等人（2015 年）通过分层 CRF（HCRF）的联合推理，进一步增强了两个通道之间的相互影响。它加强了全局预测和局部预测之间的协同作用，其中全局布局用于指导局部预测并减少局部模糊性，而局部结果则提供了详细的区域结构和边界。Mousavian 等人 Mousavian 等人（2016）、Liu 等人 Liu 等人（2018b）和 Long 等人 Liu 等人（2018a）采用全连接 CRF（FC-CRF）进行后处理，其中像素标注预测联合考虑了像素法线信息、像素位置、强度和深度等几何约束，以促进像素标注的一致性。同样，Jiang 等人（2017）提出了将深度信息与 FC-CRF 相结合的 Dense-sensitive CRF（DCRF）。

3.2. Projected Images Based Segmentation

基于投影图像的语义分割的核心思想是使用二维 CNN 利用三维场景/形状的投影图像中的特征，然后融合这些特征进行标签预测。与单视角图像相比，该管道不仅能从大规模场景中获取更多语义信息，而且与点云相比，还能减少三维场景的数据量。投影图像主要包括多视角图像或球形图像。其中，多视角图像投影通常用于 RGB-D 数据集 Dai 等人（2017）和静态地面扫描数据集 Hackel 等人（2017）。球形图像投影通常用于自驾车移动激光扫描数据集 Behley 等人（2019 年）。表 3 总结了基于投影图像的语义分割方法。

3.2.1. Multi-View Images Based Segmentation

MVCNN Su、Maji、Kalogerakis 和 Learned-Miller（2015 年）使用一个统一的网络，将虚拟摄像头形成的三维形状的多个视图的特征组合成一个单一而紧凑的形状描述符，从而提高了分类性能。这启发了研究人员将同样的想法应用到三维语义分割中（见图 6）。例如，Lawin 等人 Lawin、Danelljan、Tosteberg、Bhat、Khan 和 Felsberg（2017 年）将点云投射到多视角合成图像中，包括 RGB、深度和表面法线图像。所有多视角图像的预测得分被融合为单一表示，并反向投射到每个点上。然而，如果点云的密度较低，快照可能会错误地捕捉到观察结构后面的点，从而使深度网络误读多视图。

SnapNet Boulch、Le Saux 和 Audebert（2017 年）、Boulch、Guerry、Le Saux 和 Audebert（2018 年）对点云进行预处理，计算点特征（如正常或局部噪声）并生成网格，这与点云致密化类似。根据网格和点云，他们通过合适的快照生成 RGB 和深度图像。然后，利用 FCN 对二维快照进行像素标注，并通过高效缓冲将这些标注快速反向投影到三维点。上述方法需要提前获取三维场景的整个点云，为反向投影提供完整的空间结构。然而，直接从现实世界场景中获取的多视角图像会丢失很多空间信息。一些研究试图将三维场景重建与语义分割结合起来，通过场景重建来弥补空间信息的不足。例如，Guerry 等人（Guerry, Boulch, Le Saux, Moras, Plyer and Filliat，2017 年）利用全局多视角 RGB 和灰色立体图像重建三维场景。然后，将二维快照的标签反投影到重建的场景上。但是，简单的反投影无法优化语义和空间几何特征的融合。Pham 等人（Pham, Hua, Nguyen and Yeung，2019a）沿着这一思路提出了一种新颖的高阶 CRF，在反投影之后进一步发展了初始分割。

3.2.2. Spherical Images Based Segmentation

从三维场景中选择快照并不简单。拍摄快照时必须充分考虑视点的数量、观看距离和虚拟摄像机的角度，以获得完整场景的最佳表现。为了避免这些复杂性，研究人员将完整的点云投影到一个球体上（见图 6.底部）。例如，Wu 等人，Wu、Wan、Yue 和 Keutzer（2018a）提出了一个名为 SqueezeSeg 的端到端管道，其灵感来自 SqueezeNet Iandola、Han、Moskewicz、Ashraf、Dally 和 Keutzer（2016），从球形图像中学习特征，然后通过 CRF 作为递归层进行细化。同样，PointSeg Wang、Shi、Yun、Tai 和 Liu（2018e）通过整合特征关注和通道关注来学习鲁棒表示，从而扩展了 SqueezeNet。SqueezeSegv2 Wu、Zhou、Zhao、Yue 和 Keutzer（2019a）利用上下文聚合模块（CAM）改进了 SqueezeSeg 的结构，增加了激光雷达掩膜作为通道，以提高对噪声的鲁棒性。

RangNet++ Milioto、Vizzo、Behley 和 Stachniss（2019 年）将语义标签转移到三维点云，无论 CNN 采用何种离散程度，都能避免丢弃点。尽管普通 RGB 图像与激光雷达图像很相似，但激光雷达图像的特征分布在不同位置会发生变化。SqueezeSegv3 Xu、Wu、Wang、Zhan、Vajda、Keutzer 和 Tomizuka（2020 年）具有空间自适应和上下文感知卷积功能，称为空间自适应卷积（SAC），可针对不同位置采用不同的滤波器。Ando, Gidaris, Bursuc, Puy, Boulch 和 Marlet（2023 年）受二维视觉变形器 RangViT 的成功启发，利用在长自然图像数据集上预先训练的 ViT，在 ViT 的顶部和底部添加向下和向上模块，与基于投影的方法相比取得了良好的性能。同样，为了使长投影图像适合 ViTs，RangeFormer Kong、Liu、Chen、Ma、Zhu、Li、Hou、Qiao 和 Liu（2023 年）采用了一种可扩展的训练策略，将整个投影图像分割成多个子图像，并将它们放入 ViTs 中进行训练。训练完成后，依次合并预测结果，形成完整的场景。

3.3. Voxel Based Segmentation

与像素类似，体素将三维空间划分为许多具有特定大小和离散坐标的体积网格。与投影图像相比，它包含了更多的场景几何信息。3D ShapeNets Wu、Song、Khosla、Yu、Zhang、Tang 和 Xiao（2015 年）以及 VoxNet Maturana 和 Scherer（2015 年）将体积占位网格表示法作为物体识别 3D 卷积神经网络的输入，从而指导基于体素的 3D 语义分割。表 3 总结了基于体素的语义分割方法。

3D CNN 是一种用于处理统一体素以进行标签预测的常见架构。Huang 等人、Huang 和 You（2016 年）提出了一种用于粗体素级预测的 3D FCN。他们的方法受限于预测之间的空间不一致性，只能提供粗略的标签。Tchapmi 等人（2017）介绍了一种新型网络 SEGCloud，用于生成细粒度预测。它通过三线插值将从三维 FCN 中获得的粗体素预测向上采样到原始的三维点空间分辨率。

在采用固定分辨率体素的情况下，计算复杂度随场景尺度的增加而线性增长。大体素可以降低大规模场景解析的计算成本。Liu 等人（2017）引入了一种名为 3D CNN-DQN-RNN 的新型网络。与二维语义分割中的滑动窗口一样，该网络提出了遍历整个数据的眼窗，以便在三维 CNN 和深度 Q 网络（DQN）的控制下快速定位和分割类对象。三维 CNN 和残差 RNN 会进一步细化眼睛窗口中的特征。该管道能有效学习有趣区域的关键特征，从而以较低的计算成本提高大规模场景解析的准确性。Rethage et at.Rethage 等人（2018 年）提出了一种对多尺度输入敏感的新型全卷积点网络（FCPN），用于解析大规模场景无需预处理或后处理步骤。特别是，FCPN 能够学习记忆效率高的表征，并能很好地扩展到更大的体积。同样，Dai 等人（2018）设计了一种新型 3D CNN，在场景子卷上进行训练，但在测试时部署在任意大的场景上，因为它能够处理空间范围不同的大场景。此外，他们的网络还采用了从粗到细的策略来预测多分辨率场景，以处理随着场景大小增加而出现的数据分辨率增长问题。传统的体素表示法只包含布尔占位信息，会丢失很多几何信息。Meng 等人（2019）利用径向基函数（RBF）的变异自动编码器（VAE）来捕捉每个体素内的点分布，从而开发出一种信息丰富的新型体素表示方法。此外，他们还提出了一种利用特征的群等变卷积。

在固定比例的场景中，随着体素分辨率的增加，计算复杂度也呈立方增长。然而，体积表示法自然是稀疏的，因此在稀疏数据上应用三维密集卷积时会产生不必要的计算。为了缓解这一问题，OctNet Riegler 等人（2017 年）使用一系列不平衡八叉树将空间分层划分为非均匀体素。树状结构允许内存分配和计算集中在相关的密集体素上，而不会牺牲分辨率。然而，在 OctNet 中，空白空间仍然会造成计算和内存负担。相比之下，Graham 等人（2018 年）提出了一种新颖的子曲面稀疏卷积（SSC），不在空区域执行计算，弥补了 OctNet 的缺点。

3.4. Point Based Segmentation

点云不规则地散布在三维空间中，缺乏任何规范顺序和平移不变性，这限制了传统二维/三维卷积神经网络的使用。最近，人们提出了一系列基于点的语义分割网络。这些方法大致可分为四类：基于 MLP 的方法、基于点卷积的方法、基于图卷积的方法和基于Transformer的方法。表 4 总结了这些方法。

3.4.1. MLP Based

这些方法直接在点上应用多层感知器来学习特征。PointNet Qi、Su、Mo 和 Guibas（2017a）是直接处理点云的开创性工作。它使用共享 MLP 来利用点特征，并采用最大池化等对称函数将这些特征收集到全局特征表示中。由于最大池化层只能捕捉全局点的最大激活，因此 PointNet 无法学习利用局部特征。在 PointNet 的基础上，PointNet++ Qi、Yi、Su 和 Guibas（2017b）定义了一种分层学习架构。它使用最远点采样（FPS）对点进行分层采样，并使用 k 近邻搜索和球搜索对局部区域进行分组。简化的 PointNet 逐步利用了局部区域在多个尺度或多个分辨率上的特征。同样，Engelmann 等人（Engelmann, Kontogianni, Schult and Leibe (2018)）通过 KNN 聚类和 K-means 聚类定义局部区域，并使用简化 PointNet 提取局部特征。

为了学习短程和长程依赖关系，一些研究在基于 MLP 的方法中引入了循环神经网络（RNN）。例如，ESC Engelmann、Kontogianni、Hermans 和 Leibe（2017 年）将全局点划分为多尺度/网格块。串联的（局部）区块特征被附加到点状特征中，并通过递归合并单元（RCU）进一步学习全局上下文特征。同样，HRNN Ye、Li、Huang、Du 和 Zhang（2018）使用点式金字塔池化（3P）提取多大小局部区域的局部特征。点向特征和局部特征被串联起来，双向分层 RNN 在这些串联特征上探索上下文特征。但是，由于深层特征没有覆盖更大的空间范围，因此学到的局部特征并不充分。

另一种技术是，一些作品将手工制作的点表示法集成到 PointNet 或 PointNet++ 网络中，在可学习网络参数较少的情况下增强点表示能力。受 SIFT 表示法 Lowe（2004 年）的启发，PointSIFT Jiang、Wu、Zhao、Zhao 和 Lu（2018 年）插入了一个学习局部形状信息的 PointSIFT 模块层。该模块通过编码不同方向的信息，将每个点转换为新的形状表示。PointWeb Zhao、Jiang、Fu 和 Jia（2019a）提出了一个自适应特征调整（AFA）模块来学习局部点之间的交互信息，以增强点的表示。同样，RepSurf Ran、Liu 和 Wang（2022）引入了两种新颖的点表示方法，即三角形和伞形代表面，以建立联系并增强学习到的点特征的表示能力。这种方法以较少的可学习网络参数有效提高了特征表示能力，引起了研究界的极大关注。与上述方法不同，PointNeXt Qian、Li、Peng、Mai、Hammoud、Elhoseiny 和 Ghanem（2022 年）采取了一种不同的方法，通过对模型训练和缩放策略的系统研究，重新审视了经典的 PointNet++ 架构。它提出了一套改进的训练策略，显著提升了 PointNet++ 的性能。此外，PointNeXt 还引入了倒置残差瓶颈设计，并采用了可分离的 MLP，以实现高效和有效的模型扩展。

3.4.2. Point Convolution Based

基于点卷积的方法直接对点进行卷积运算。与二维卷积不同，点卷积的权函数需要自适应地学习点的几何信息。早期的卷积网络主要关注卷积权函数的设计。例如，RSNet Huang、Wang 和 Neumann（2018 年）使用 1x1 卷积利用点向特征，然后通过局部依赖模块（LDM）利用局部上下文特征。然而，它并没有为每个点定义邻域以学习局部特征。另一方面，PointwiseCNN Hua、Tran 和 Yeung（2018）按特定顺序（如 XYZ 坐标或 Morton cureve Morton（1966））对点进行排序，并动态查询近邻，将其分入 3x3x3 内核单元，然后用相同的内核权重进行卷积。

逐渐地，一些点卷积工作将卷积权重函数近似为 MLP，从点坐标中学习权重。PCCN Wang、Suo、Ma、Pokrovsky 和 Urtasun（2018c）在 KD 树邻域上执行参数 CNN，其中核被估计为 MLP，以学习局部特征。PointCNN Li、Bu、Sun、Wu、Di 和 Chen（2018b）用最远点采样粗化输入点。卷积层通过 MLP 学习局部点的χ变换，同时对特征进行加权和置换，然后对这些变换后的特征应用标准卷积。

一些研究将系数（源自点坐标）与权重函数联系起来，以调整学习到的卷积权重。被称为 PointConv 的蒙特卡洛卷积近似方法的扩展，Wu、Qi 和 Fuxin（2019b）将点密度考虑在内。它使用 MLP 近似卷积核的权重函数，并应用反密度标度对学习到的权重函数重新加权。同样，MCC Hermosilla、Ritschel、Vázquez、Vinacua 和 Ropinski（2018 年）通过依赖点概率密度函数 (PDF) 将卷积表述为蒙特卡罗积分问题，其中卷积核也由 MLP 表示。此外，它还引入了 Possion Disk Sampling（PDS）Wei（2008 年）来构建点层次结构，而不是 FPS，这为在感受野中获得最大数量的样本提供了机会。

另一种研究使用其他函数代替 MLP 来近似卷积权重函数。FlexConvolution Groh、Wieschollek 和 Lensch（2018）使用参数较少的线性函数来模拟卷积核，并采用反密度重要性子采样（IDISS）来粗化点。KPConv Thomas、Qi、Deschaud、Marcotegui、Goulette 和 Guibas（2019 年）以及 KCNet Shen、Feng、Yang 和 Tian（2018 年）固定了卷积核，以提高对点密度变化的鲁棒性。这些网络在局部区域预先定义了核点，并分别使用线性相关函数和高斯相关函数从核点与局部点的几何连接中学习卷积权重。

在有限的局部感受野上进行点卷积无法利用长程特征。因此，一些研究在点卷积中引入了扩张机制。Dilated point convolution（DPC）是 Engelmann、Kontogianni 和 Leibe（2020b）在每个点的邻近点上调整标准点卷积，邻近点是通过扩张 KNN 搜索确定的。同样，ACNN Komarichev、Zhong 和 Hua（2019）通过扩张 KNN 定义了一个新的局部环形区域，并将点投影到切线平面上，以进一步排序局部区域中的邻近点。然后，对这些以闭环阵列形式表示的有序邻点进行标准点卷积。

在大规模点云语义分割领域，RandLA-Net Hu、Yang、Xie、Rosa、Guo、Wang、Trigoni 和 Markham（2020）采用随机点采样，而不是更复杂的点选择方法。它引入了一个新颖的局部特征聚合模块（LFAM），以逐步增加感受野，有效保留几何细节。另一项技术 PolarNet Zhang、Zhou、David、Yue、Xi、Gong 和 Foroosh（2020 年）首先将大型点云按照其极地鸟瞰（BEV）坐标分割成较小的网格（局部区域）。然后，通过简化点网将局部区域点抽象为定长表示，并通过标准卷积对这些表示进行处理。

3.4.3. Graph Convolution Based

基于图卷积的方法是对以图结构连接的点进行卷积，图有助于利用点之间的结构信息进行特征聚合。图可以分为光谱图和空间图。在频谱图中，LSGCN Wang、Samari 和 Siddiqi（2018a）采用了 PointNet++ 的基本架构，用使用标准非参数化傅里叶核的频谱图卷积取代了 MLP，还用一种新颖的递归频谱簇池化替代了最大池化。然而，从空间域到频谱域的转换会产生很高的计算成本。此外，频谱图网络通常定义在固定的图结构上，因此无法直接处理具有不同图结构的数据。

在空间图类别中，ECC Simonovsky 和 Komodakis（2017 年）是应用空间图网络从点云中提取特征的先驱方法之一。它动态生成边缘条件滤波器，以学习描述点与其邻居之间关系的边缘特征。基于 PointNet 架构，DGCNN Wang、Sun、Liu、Sarma、Bronstein 和 Solomon（2019b）在每个点的邻域上实现了名为 EdgeConv 的动态边缘卷积。卷积由简化的 PointNet 逼近。SPG Landrieu和Simonovsky（2018）将点云分成若干简单的几何形状（称为超级点），并在全局超级点上构建超级图。然后，网络采用 PointNet 嵌入这些点，并通过门控递归单元（GRU）细化嵌入。基于PoinNet++的基本架构，Li等人：Li, Ma, Zhong, Cao and Li（2019b）提出了几何图卷积（TGCov），其滤波器定义为局部点向特征与局部几何连接特征的乘积，由高斯加权泰勒核表示。Feng 等人：Feng、Zhang、Lin、Gilani 和 Mian（2020 年）在沿多方向搜索的邻域点上构建了局部图，并通过局部注意边卷积（LAE-Conv）探索局部特征。这些特征被导入点空间注意力模块，以捕捉准确、稳健的局部几何细节。Lei 等人设计了一个模糊系数乘权重函数，使卷积权重具有鲁棒性。

3.4.4. Transformer Based

最近，注意力机制在提高点云分割准确性方面很受欢迎。与点卷积相比，Transformer 将点特征引入权重学习。例如，Ma 等人（Ma, Guo, Liu, Lei and Wen，2020 年）使用通道自注意机制来学习任意两个点特征通道之间的独立性，并进一步定义了通道图，其中，通道图以节点表示，独立关系以图边表示。AGCN Xie、Chen 和 Peng（2020b）将注意力机制与 GCN 相结合，用于分析点的局部特征之间的关系，并引入全局点图来补偿单个点的相对信息。PointANSL Yan、Zheng、Li、Wang 和 Cui（2020）使用一般自注意机制进行群特征更新，并提出自适应采样（AS）模块以克服 FPS 的问题。

Transformer 模型采用自我注意作为基本组成部分，包括位置编码，以捕捉输入标记的顺序。位置编码对于确保模型理解词块在序列中的相对位置至关重要。Point Transformer Zhao、Jiang、Jia、Torr 和 Koltun（2021 年）将基于 MLP 的位置编码引入矢量注意，并使用基于 KNN 的下采样模块来降低点的分辨率。后续工作，Point Transformer v2 Wu、Lao、Jiang、Liu 和 Zhao（2022a）通过对关系向量应用额外的编码乘数来加强位置编码机制，并设计了一种基于分区的池化策略来对齐几何信息。

点Transformer的计算成本通常很高，因为原始的自我注意力模块需要生成一个巨大的注意力图。为解决这一问题，PatchFormer Zhang、Wan、Shen 和 Wu（2022 年）通过低秩近似计算注意力图。同样，FastPointTransformer Park、Jeong、Cho 和 Park（2022 年）也引入了一种轻量级的局部自我关注模块，它可以学习连续的位置信息，同时降低空间复杂度。受基于窗口的 Transformer 在二维领域取得成功的启发，Stratified Transformer Lai、Liu、Jiang、Wang、Zhao、Liu、Qi 和 Jia（2022 年）设计了一个立方体窗口，并以更稀疏的方式采样远处的点作为关键点，以扩大感受野。同样，SphereFormer Lai、Chen、Lu、Liu 和 Jia（2023）设计了径向窗口自注意，将空间划分为几个不重叠的窄窗口和长窗口，以利用长程依赖性。

3.5. Other Representation Based

有些方法会将原始点云转换为投影图像、体素和点以外的表示方法。这类表征的例子包括切线图像 Tatarchenko 等人（2018 年）和网格 Su 等人（2018 年）、Rosu 等人（2019 年）。在前一种情况下，Tatarchenko 等人（2018 年）将每个点周围的局部曲面投影到一系列二维切线图像上，并开发了基于切线卷积的 U-Net 来提取特征。在后一种情况下，SPLATNet Su 等人（2018 年）采用了 Jampani 等人、Jampani、Kiefel 和 Gehler（2016 年）提出的双边卷积层（BCLs），将无序点平滑映射到稀疏网格上。同样，LatticeNet Rosu 等人（2019 年）采用了一种混合架构，将获取低层特征的 PointNet 与稀疏 3D卷积，探索全局上下文特征。这些特征被嵌入到一个稀疏的网格中，从而可以应用标准的二维卷积。

尽管上述方法在三维语义分割方面取得了重大进展，但每种方法都有其自身的缺点。例如，多视角图像具有更多的光谱信息，如颜色/强度，但场景的几何信息较少。另一方面，体素具有更多的几何信息，但光谱信息较少。为了两全其美，一些方法采用混合表征作为输入来学习场景的综合特征。Dai 等人、Dai 和 Nießner （2018）将多视角网络获得的二维语义特征映射到场景的三维网格中。这些管道使三维网格附加了丰富的二维语义以及三维几何信息，从而使三维 CNN 能够更好地分割场景。同样，Hung 等人、Chiang 等人（2019）将二维多视角图像特征反向投射到三维点云空间，并使用统一的网络分别从子卷和全局场景中提取局部细节和全局背景。Liu 等人（2019b）认为，基于体素和基于点的 NN 分别在高分辨率和数据结构方面计算效率低下。为了克服这些挑战，他们提出了点-体素 CNN（Point-Voxel CNN），将三维输入数据表示为点云，利用稀疏性降低内存占用，并利用基于体素的卷积获得连续的内存访问模式。Jaritz 等人（2019）提出的 MVPNet 将二维多视角密集图像特征收集到三维稀疏点云中，然后使用统一网络融合语义特征和几何特征。此外，Meyer 等人（2019）通过统一网络融合二维图像和点云，解决三维物体检测和语义分割问题。BPNet Hu 等人（2021 年）由具有对称架构的二维和三维子网络组成，通过双向投影模块（BPM）连接。这使得来自两个视觉域的互补信息可以在多个架构层面上进行交互，从而利用二维和三维信息的优势提高场景识别能力。表 3 总结了其他基于表征的语义分割方法。