【点云补全综述阅读记录笔记】

最新推荐文章于 2025-03-26 21:42:37 发布

魔刀千仞

最新推荐文章于 2025-03-26 21:42:37 发布

阅读量3.2k

点赞数 16

文章标签：笔记深度学习

本文链接：https://blog.csdn.net/qq_57983854/article/details/138283815

版权

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

点云补全综述
摘要（Abstract）
一、介绍（Introduction）
二、点云缺失的原因
三、挑战
- A.结构信息挑战（Structural Information Challenges）
- B.细粒度完整形状挑战（Fine-Grained Complete Shapes Challenges）
四、数据集
五、衡量指标（Metrics）
六、方法
七、比较
八、应用
九、未来的方向和开放的问题
- 十、结论

点云补全综述

Comprehensive Review of Deep Learning-Based 3D Point Clouds Completion Processing and Analysis

Ben Fei , Graduate Student Member, IEEE, Weidong Yang, Wen-Ming Chen , Member, IEEE,Zhijun Li, Fellow, IEEE, Yikang Li, Tao Ma, Xing Hu, and Lipeng Ma

https://arxiv.org/abs/2203.03311

摘要（Abstract）

点云补全是一种从部分点云衍生的生成和估计问题，它在3D计算机视觉的应用中起着至关重要的作用。深度学习（DL）的进步显著提升了点云补全的能力和稳定性。然而，为了满足实际应用的需求，补全的点云质量仍需进一步提高。因此，本文旨在就各种方法进行全面调查，包括基于点的、基于视图的、基于卷积的、基于图的、基于生成模型的、基于变换器的方法等。此外，本综述总结了这些方法之间的比较，以激发进一步的研究见解。此外，本文回顾了常用的数据集，并阐述了点云补全的应用。最终，我们还讨论了这一迅速扩展领域中可能的研究趋势。

一、介绍（Introduction）

随着3D扫描设备的普及，包括激光雷达、激光扫描仪或RGB-D扫描仪等，获取点云变得更加容易，并且当前在机器人、自动驾驶、3D建模和制造等领域引发了大量研究。然而，由于遮挡、反射、透明度以及设备分辨率和角度的限制，这些设备直接收集的原始点云主要是稀疏和局部的。因此，从部分观测数据中生成完整的点云对于提升下游应用至关重要。

点云补全的有效性在于其在各种计算机视觉应用中的独特和关键作用。**3D重建（3D reconstruction）。**生成完整的3D场景是许多计算机视觉任务的基础和重要技术，包括自动驾驶中的高分辨率3D地图重建、机器人中的3D重建和地下采矿。例如，机器人应用中的点云补全可以通过构建3D场景来帮助进行路线规划和决策。此外，在地下开采空间进行大规模三维环境重建，以准确监测开采安全。**3D检测（3D detection）。**三维目标检测依赖于完整的点云来保持最先进的SOTA性能。例如，激光雷达捕捉到的远处的汽车往往是稀疏的，通常很难被发现。值得注意的是，我们经常需要完全分割目标点云来完成它。例如，在KITTI数据集上进行三维检测时，需要对车辆的点云进行分割并归一化到其尺度和方向，才能得到完整的车辆点云。**3D形状分类（3D shape classification）。**对于3D形状分类，最终需要从部分观测数据恢复到完整的点云。局部点云代表物体的一小部分，通常难以识别。由于点云补全在许多实际的计算机视觉应用中起着至关重要的作用，因此迫切需要对点云补全进行广泛的研究。

然而，关于点云的补全和下游任务的调查很少，而深度学习在点云补全方面的最新进展迫切需要回顾[1]-[10]。为了刺激点云补全在工业界和学术界的发展，我们进行了全面的回顾，总结了近年来(2017-2022)点云补全技术的快速增长，主要包括目前的深度学习方法。此外，我们对各种深度学习技术进行了比较。

在过去的几年里，研究人员尝试了许多方法来解决深度学习中的这个问题。早期对点云补全的尝试[12]-[17]试图通过体素化和三维卷积将成熟的方法从2D补全任务转移到3D点云。然而，随着空间分辨率的提高，这些方法的计算成本较高。随着PointNet和PointNet++[18]，[19]的巨大成功，直接处理三维坐标已经成为基于点云的三维分析的主流。该技术进一步应用于许多开创性的点云补全[20]-[27]，其中设计了一种编码器-解码器方案来产生完整的点云。近年来，基于点的方法、基于视图的方法、基于卷积的方法、基于图的方法、基于生成模型的方法、基于变换的方法等也如雨后春笋一样涌现出来，并取得了显著的成果(图1)。

                  图1 常用点云算法[11]补全结果示意图。

与已有的论文相比，本综述的主要贡献可归纳为以下几点:

据我们所知，这是第一次系统地涵盖了几乎所有点云补全的深度学习方法。
本文介绍了点云补全的最新进展，以及它们的方法和贡献。
在一些公共数据集上对现有深度学习方法进行了系统的比较，并给出了紧凑的结论和深入的讨论。
在本次调查的最后，我们将讨论基于深度学习的点云补全的未来研究，以促进该领域的改进。

二、点云缺失的原因

定义:点云是空间中代表三维形状或物体的一组数据点。点云通常由3D扫描仪或摄影测量软件产生，由大量的点组成，这些点在几何上代表物体的3D表面。部分或不完整点云是指缺少点的点云。点的缺失是指点云中有一部分点由于各种原因而缺失。

在这里插入图片描述

                         图2 完整点云和缺失70%点云示意图。

在数据采集过程中，三维激光扫描仪会受到被测物体特性、处理方法和环境的影响，不可避免地导致点的缺失(图2)。如图3所示，其主要原因可归结为**镜面反射、信号吸收、外界物体遮挡、物体的自遮挡和盲点。**前两者是由于物体的表面材料可能以意想不到的方式吸收或反射激光雷达信号。后三种主要是由于遮挡，可以借助物体的其他部分或者利用多源数据来完成。此外，三维扫描仪在扫描过程中的稳定性对扫描质量也有特殊的影响。
在这里插入图片描述

                                 图3 点云缺失的原因。

**数据采集完成后，还需要对点云进行去噪、平滑、配准、融合等一系列处理。同时，这些操作将显著加剧点的缺失。**这不仅会影响数据的完整性，导致拓扑错误，而且会影响点云重构、三维模型重建、局部空间信息提取和后续处理的质量。

三、挑战

A.结构信息挑战（Structural Information Challenges）

完整点云的重建具有挑战性，因为完成点云补全任务所需的结构信息与点云的无序和非结构化性质背道而驰。现实世界中的三维物体点云可以分为低级和高级两种构型，包括曲面、语义部分、几何元素等。现有的点云生成框架要么在其设计的解决方案中排除结构，要么假设并执行特定的结构/拓扑来生成3D对象的完整点云，例如，一组表面或流形。因此，学习点云的结构特征对于获得更好的完整点云至关重要。

B.细粒度完整形状挑战（Fine-Grained Complete Shapes Challenges）

3D形状补全是利用几何对称性、规则排列、表面平滑度等相关结构信息重构出合理的细粒度完整点云。虽然已有几项工作通过迭代细化[28]、全局特征与局部特征融合[29]、跳过连接[30]、残差连接[31]等方法充分挖掘了结构信息，但需要更多的努力来生成细粒度的完整形状。

因此，本文将研究最先进（SOTA）补全技术的性能，并讨论他们在应对这两个重大挑战时所采用的解决方案。

四、数据集

对于3D形状补全，数据集可以分为人工数据集和真实数据集两类(表1)，研究最多的四种数据集是:

                              表1 点云补全的现有数据集总结

在这里插入图片描述

PCN[32]:源自PCN[25]的计算机辅助设计(CAD)数据集，共包含8个特定类别的30974个3D模型。地面真值点云由地表均匀采样的16384个点云组成。数据集还包括每个不完整样本对应的完整三维形状。这些完整形状作为“真值”（ground truth），用于比较网络的输出并计算误差。
KITTI[34]:数据集是通过Velodyne激光扫描仪收集的。odometry数据集最初是为了评估立体匹配的性能而设计的，该数据集包含22个立体序列的LiDAR点云。收集部分汽车来评估点云补全方法在没有地面真实情况下的实际扫描中的性能。
ModelNet40[35]:一套全面的3D CAD模型。它的对象包括40个类别和13356个模型。
Completion3D[24]:基于ShapeNet数据集派生的子集评估形状补全方法的在线平台。注意到一些配对点云面临尺度不匹配的问题，这可以通过[37]中提出的单侧CD损耗来解决。

除了上述数据集之外，最近还提出了Shapenet 34/55[33]和MVP数据集[36]，以增加物体的种类和数量、不同的视点和不同程度的缺陷，尽可能接近现实世界的物体。

五、衡量指标（Metrics）

对于3D点云补全领域，倒角（CD）距离（Chamfer Distance）[38]和地球移动（EMD）距离(Earth Mover’s Distance)[38]是最常用的性能标准。倒角（CD）距离试图找到两组点之间的最小距离，而EMD则评估点云重建的质量。

A.倒角（CD）距离（Chamfer Distance）

在这里插入图片描述
Chamfer Distance（CD）是在计算机视觉和图形学中常用来衡量两个点集之间差异的一种度量方法。它主要用于比较两个点云的相似程度，例如，在三维重建、形状匹配或点云补全等任务中评估预测点云与目标点云的一致性。

具体来说，Chamfer Distance是通过计算一个点集中的点到另一个点集中最近点之间距离的平方和来定义的。有如下两种变体CD-T,CD-P
在这里插入图片描述

B.地球移动（EMD）距离(Earth Mover’s Distance)

EMD的目的是找出一个双射φ: S1→S2，使对应点与部分点和完全点之间的平均距离最小。与CD不同的是，S1和S2的尺寸需要相同。
在这里插入图片描述

C.保真误差(FD)，最大平均差异(MMD)和一致性（Fidelity Error (FD), Maximum Mean Discrepancy (MMD) and Consistency）

PCN提出了保真误差(FD)、一致性(Consistency)和最小匹配距离(MMD)作为评价指标[25]。

保真度用于测量输入的保存程度，它计算输入点与输出中相应的最近邻居之间的平均距离。是用来评估生成的点云与原始点云在几何上的相似度。它通常通过计算生成的点云与参考点云之间的距离差异来衡量。保真误差越小，表明生成的点云与原始的点云越相似，忠实度越高。一个常用的方法是计算每个点在生成的点云和原始点云之间的最近邻距离，并对所有这些距离求平均值。

MMD用于测量模型的输出在多大程度上重构了一辆典型的汽车。在点云分析中，**MMD可以用于衡量生成的点云分布与真实点云分布之间的差异。**具体来说，MMD计算了在某个特征空间中，两个分布的均值嵌入之间的距离。如果两个分布相同，那么MMD应该接近于零。MMD是一个非参数化的测试，不需要假定数据遵循任何特定的分布。它适用于高维数据，并且在机器学习和计算机视觉领域得到了广泛的应用。

一致性(Consistency)旨在估计模型的输出相对于输入的变化的一致性。在点云的背景下，这意味着生成的点云是否在结构上表现出一致性，或是生成的点云是否能在序列或时间帧之间保持连贯性。例如，在时间序列数据中，连贯性可能参考的是对象的连续帧是否逻辑上是连续的，无论是从运动还是形状的视角来看。在一些情况下，Consistency可以通过评估从同一个对象或场景生成的多个点云之间的相似性来测量。

D.密度感知倒角距离(DCD)(Density-Aware Chamfer Distance)

DCD[39]是由CD衍生而来的，它可以检测密度分布的差异。DCD注重整体结构和局部几何细节。
在这里插入图片描述

E.F-Score

Tatarchenko等人提出的F-score是用来评价物体表面之间的距离，并将其作为准确率和召回率之间的调和平均值。精度计算重建点在一定距离内与地面真实值的百分比，代表重建的精度。另一方面，召回计算在重建一定距离内的地面真实点的百分比，代表重建的完整性。可以利用距离阈值d来控制f分数的严格性。F-score可以评价重建正确的点或表面积的百分比，其定义如下:

在这里插入图片描述
在这里，精确率是指正确重建或识别的点与算法识别为该类的总点数之比。召回率是指正确重建或识别的点与实际类中总点数之比。F-Score 提供了这两个指标之间的平衡，可以用来评价模型的整体表现。

F.Uniformity

均匀度[41]通常用来评价补全点云的分布均匀性，可以表示为:
在这里插入图片描述

六、方法

如图4所示，根据点云补全和生成所采用的网络结构，现有架构可分为基于点的、基于视图的、基于卷积的、基于图的、基于Transformer的、基于生成模型的等方法。几乎所有里程碑式的贡献都清晰地显示在图5中。由于大多数作品是混合方法，因此根据其陈述的亮点，它们可能属于几种方法。因此，我们将讨论这些作品，如果他们使用的方法，可以分为这些类别。
在这里插入图片描述

                                                图4 点云补全的分类

在这里插入图片描述

               图5 最近和最相关的基于深度学习的点云补全方法的时间顺序摘要。

A.基于点的方法

基于点的方法通常利用多层感知器(MLP)对每个点独立建模。然后，由于点云的变换不变性，全局特征通过对称函数(如Max-Pooling)聚合。然而，整个点群的几何信息和相关性仍未得到充分考虑。作为一种常用的特征处理方法，在本节中我们只回顾了主要使用基于点的网络的方法。

1)前期工作:

由PointNet首创的[18]，由于其简洁且不可忽视的表示能力[33]，[41]-[43]，一些作品使用MLP进行点云的处理和恢复。PointNet++[19]和TopNet[24]采用了层次结构来考虑几何信息。pointnet++提出了两组抽象层，可以智能地聚合多层信息，而TopNet提出了一种新的解码器，可以在不假设任何特定结构或拓扑的情况下生成结构化的点云。Yu等人[44]受PointNet和PointNet++的启发，提出了基于亚像素卷积层的特征缩放的PU-Net学习多尺度特征。尺度恢复方法对提取的特征进行1 × 1核卷积。然后，将提取的特征分解重构为上采样点的聚类。利用联合损失函数将生成的点云均匀地分布在势面上。然而，PU-Net主要用于从稀疏的点云生成一个更密集的点云，而不是进行点云补全。它不能填补大洞和缺失的部分，也不能为点云的严重下采样部分添加有意义的点。

为了减轻MLP带来的结构损失，本文提出的AtlasNet[20]和MSN[31]通过评估一组参数曲面元来重建完整的输出，从而生成完整的点云。具体来说，AtlasNet[20]在单位正方形中额外输入一个2D点，并应用它在表面上产生一个单点。因此，输出是一个平面的连续图像。这种方法可以多次重复，以从众多表面元素的组合中重建三维形状。为了避免结构损失，MSN[31]引入了基于变形的解码器，该解码器可以将单元正方形变形为一组聚集在粗点云中的表面元素。

2) PCN衍生方法(PCN-Derived Methods:):

Hebert等人首次提出了一种基于学习的形状补全方法——点补全网络(Point completion Network, PCN)。与现有的方法不同，PCN直接在原始点云上工作，不需要任何结构假设(如对称性)或关于底层形状的注释(如语义类)。它具有解码器设计，可以在保持少量参数的同时生成细粒度完成。

Chang et al.[45]将PCN和逐点卷积相结合，设计了FinerPCN，通过考虑局部信息，以从粗到细的方式生成完整的、精细的点云。

之后，Nie等人提出了骨架桥接点补全网络(SK-PCN)。SK-PCN具有3D骨架，预计可以学习全局信息。随后，通过使用骨骼点的位移来完成表面。

在MSPCN中，Zhang等人使用串联上采样模块来重建细粒度输出，并监督每个阶段，以生成具有更多信息的输出，并为下一阶段提供有益的中间过程。此外，他们提出了一种识别关键集(MVCS)的方法，该方法将选择点与最大池化和体积下降采样点相结合。该MVCS可以将关键功能和整体功能结合起来。

3）端到端机制（End-to-End Mechanism）:

在这里插入图片描述

             图六 点云补全的端到端网络示意图。N表示潜在空间的维数。

在基于点的方法中，端到端方式被广泛应用于网络架构中。在编码器-解码器方案(图6)中，补全架构中的编码器旨在提取全局三维形状特征和每个点的区域特征。同时，解码器生成补全点云并对其进行细化。

Xia等人([51])设计了一种S2UNet网络，以端到端方式从车辆应用中的稀疏点云重构出更均匀、更细粒度的结构。值得注意的是，他们采用上采样方法来生成更均匀的点云。此外，他们设计了ASFM-Net[52]，其中不对称Siamese自动编码器(AE)生成粗糙但完整的输出，下面的细化单元旨在恢复具有细粒度细节的最终点云。

Mendoza et al.[53]提出了一种端到端模式的网络，该网络由缺失部分预测网络和合并细化网络两个神经网络组成。该方法在保留现有几何形状和细化细节的同时，预测和集成缺失的部分。

Miao等人([54])通过设计编码器-解码器方案，提出了一种形状保持补全网络，以保持三维形状，并恢复重建三维形状的细粒度信息。该网络既能学习全局特征，又能整合不同方向和尺度的相邻点的区域信息。在解码过程中，信息会被融合成潜在向量。

Peng等人[55]提出了一种从稀疏到密集的多编码器神经网络(SDME-NET)，以端到端方式完成，同时保留3D形状的细节。值得注意的是，缺陷点云将分两个阶段完成和细化，从稀疏到密集。在第一阶段，他们基于两层PointNet生成了粗糙但完整的结果。在第二阶段，他们利用第一阶段的稀疏结果，使用PointNet++生成高密度和高保真度的点云。生成高密度和高保真的点云。提出了一种基于对齐关键点的拓扑感知点云补全模型LAKe-Net[9]，并提出了一种新颖的关键点-骨架-形状预测方法。

Cai等人[4]的目标是学习一个统一的、结构化的隐空间，对部分和完全点云进行编码，以无监督的方式提高部分完全几何的一致性。此外，他们在一系列相关的部分点云之间应用定制的结构化潜在监督来增强结构化潜在空间的学习。通过这种方式，他们可以重建更精确的完整点云，并配备更好的细粒度形状细节。为了减少点云补全模型训练时对配对数据的依赖，提出了一种新颖的半监督方法RaPD[5]。RaPD采用两阶段训练计划。第一阶段通过重建感知预训练学习鲁棒语义先验，第二阶段通过先验蒸馏和自监督完成学习学习最终完成深度模型。

**CS-Net[7]**是一种端到端网络，用于补全被噪声污染或含有离群值的点云。在CS-Net中，补全模块和分段模块协同工作，相互促进，并从设计的级联结构中受益。在分割的帮助下，更干净的点云被送入补全模块。Wang等人提出了一种架构，该架构依赖于编码器-解码器结构中连续使用的三层，从而获得了具有细粒度细节的高分辨率重建的显着改进。第一个算法通过将点特征与一组预训练的局部描述符匹配来进行特征提取。然后，为了避免丢失单个描述符作为maxpooling等标准操作的一部分，提出了一种替代的邻居池化操作，该操作依赖于采用具有最高激活的特征向量。最后，解码器中的上采样修改了我们的特征提取，以增加输出维度。

在此基础上，提出了两种特征组合策略，利用多尺度特征的功能，整合不同信息分别表示给定零件和缺失零件。将全局和局部特征聚合(GLFA)和残差特征聚合(RFA)称为[56]。这两种方法表示两种类型的特征，并借助于它们的组合[56]来恢复坐标。此外，为了防止生成的点云分布不均匀，还设计了细化模块。

针对由众多物体组成的场景，Zhao et al.[57]设计了一种局部点云补全方法，该方法主要强调两个物体非常接近且上下文相关的成对场景。并设计了一个网络来编码单个形状的几何形状和成对场景中不同物体之间的空间关系。利用条件补全的优点，利用不同补全序列之间的一致性损失对双路径方案进行监控。这种方法可以处理物体之间严重遮挡的复杂情况。

为了解决具有挑战性的密集3D点云补全问题，Li等人提出了一个框架，首先执行端到端低分辨率恢复，然后进行逐块噪声感知上采样。该方法解码完整但稀疏的形状，然后进行迭代细化。然后通过对称化和逐块上采样的方法来保持点云的可信信息。这样可以获得高保真的密集点云。近年来，提出了一种由三个模块(循环特征提取(RFE)模块、前向密集补全(FDC)模块和原始形状保护(RSP)模块)组成的循环前向网络(RFNet)。RFE从不完整点云中提取不同循环水平的多个全局特征，而FDC在粗到细的管道中产生输出。此外，RSP从原始的不完整形状中引入细节，以改进完井结果。此外，提出了采样倒角距离来捕获物体的形状，并设计了平衡扩展约束来限制从粗到细的扩展距离。

4）注意力辅助方法（Attention-Assisted Methods）

注意是一种自适应学习信息的灵活机制，积累的重要信息权重很高。

通过保持局部点云的空间排列，设计了三维点胶囊网络[49]，并采用自编码器处理稀疏的三维点云。三维胶囊网络的创建源于统一的、通用的三维自动编码器。如图7所示，胶囊网络选择了一个有前途的方向，其中大量的卷积滤波器通过动态路由实现对胶囊集的学习。

PUI-Net[60]集成了一个编码器-解码器架构，具有用多个级联的注意转换单元提取特征和在扩展之前将多级特征连接在一起的优点。利用提取的判别特征，通过非区域特征展开单元生成细粒度点云的密集特征图。

Li等[61]提出了一种密集点云补全模型(N-DPC)，将自关注单元与局部特征和全局特征融合在一起。

Sun等人[62]提出了一种具有自关注的自回归网络PointGrow，该网络循环运行。PointGrow根据给定其先前生成的点的条件分布对每个点进行采样，从而允许很好地利用点间的相关性。

PointAttN[63]利用交叉注意和自注意机制，以一种从粗到精的方式解决点补全任务。它主要包括三个模块:用于局部几何结构和全局形状特征捕获的特征提取块、用于粗粒度点云生成的种子生成器块和用于细粒度点云生成的点生成器块。
在这里插入图片描述

  图7  四种不同SOTA 3D点解码器的比较。(a) PointNet[18]使用单一潜在向量，没有表面假设。(b) FoldingNet[48]与固定的二维网格一起学习一维潜在向量。(c) AtlasNet[20]学习变形，将多个二维构型转化为局部2-流形。(d)点胶囊网络[49]可以学习多个潜在表征，每个潜在表征都可以将一个不同的二维网格折叠到一个特定的局部patch上。

5) Folding派生方法（Folding-Derived Methods）

在这里插入图片描述

                图9 两步folding解码的描述。第二列显示解码时要folding的二维网格。第三列是经过一次folding操作的结果。第四列是两次folding后的结果。最后的结果也是恢复的点云。颜色梯度用于解释第二列二维网格与后两列恢复的点云在折叠[48]后的对应关系。

在这里插入图片描述

                       图10 FoldingNet的架构

作为Yang等人首次证明的通用架构，基于Folding的解码器可以对具有详细结构的物体从二维网格中重构任意点云，重构误差很低(图9、图10)。FoldingNet就像施加了一种“虚拟力”，可以将2D网格变形/切割/拉伸到3D表面。这种变形力应该受到相邻网格所产生的相互连接的影响或调节。由于解码器中的中间折叠步骤和训练过程可以用重构点表示，因此可以直观地看到折叠力的逐渐变化。

基于Folding的方法(KCNet[64]、MSN[31]和PoinTr[33])通常从固定大小的二维平面上采样二维网格，然后将它们与点云特征编码器提取的全局形状表示连接起来。KCNet[64]、AtlasNet[20]、MSN[31]和SA-Net[30]通过评估一组参数曲面元来重建完整的目标，并学习从2D到3D曲面元的投影。SA-Net提出了一种结构保持的分层折叠解码器，用于完整的形状生成。

此外，**TopNet[**24]将分层根树架构作为解码器进行探索，以产生随机分组的点，并通过将树解码器中的节点可视化为其子节点的集合，直观地展示解码器利用的架构。为了充分利用结构细节，Wen等人提出了跳过注意网络(Skip-Attention Network)，该网络在两个方面做出了贡献:采用跳过注意机制来探索部分输入的区域结构细节，并提出了一种使用分层折叠的结构保持解码器来利用所选择的几何信息。

尽管他们的成功是有限的，但一个对象的重要细节往往被忽略。现有的Folding衍生方法，如PCN[25]、FoldingNet[48]和TopNet[24]，在一定程度上不能产生物体的结构细节。其中一个原因是它们只依赖于一个单一的全局形状表示来预测整个点云。相反，有助于恢复详细几何形状的丰富局部区域信息没有得到充分利用。Zong等人([11])提出了一种自适应采样和分层折叠网络(ASHF-Net)，其中带有自适应采样模块的去噪自编码器学习局部区域特征，而带有门控跳过注意和多分辨率补全目标的分层折叠解码器利用局部结构细节。Huang等人[65]将基于点的编码器与基于FC的解码器和基于Folding的解码器结合起来产生完整的输出，这种具有多级损失函数的模型可以直接应用于点云的补全。

目前，FoldingNet是现有点云补全网络中应用最广泛的译码块。FoldingNet有一个缺点，促使研究人员构建新的解码器块。折叠操作为每个父点采样相同的二维网格，忽略父点中包含的局部形状特征。

然而，基于点的方法存在一些局限性。

基于点的网络主要解决排列问题。尽管基于点的方法在局部水平上独立处理点以保持排列不变性，但这种独立性忽略了点与其相邻点之间的几何关系。它有一个根本性的局限性，导致局部特征的丧失。
大多数基于点的方法以一种从粗到精的方式工作。他们很难重建物体的细节，主要有两个原因:1)由全局嵌入产生的粗输出失去了三维形状的高频信息;2)第二阶段作为一个点上采样函数，不能合成复杂的拓扑。
基于点的模型直接处理点，计算量大，在大场景下不如基于体素的方法。

B. 基于视图的（View-Based Methods）

在这里插入图片描述

                     图8 ViPC是一种利用额外的单视图图像[50]的互补信息来完成局部点云的方法。

由于图像模态的优点，解决点云补全的关键挑战是有效地整合不完整图像的姿态和区域细节所带来的特征以及单视图图像的全局形状信息(图8)。作为传感器融合网络，Zhang et al.[50]提出了ViPC，这是一个视图引导的架构。ViPC从另一个单视图图像中检索缺失的全局结构信息。ViPC的主要贡献在于“动态偏移预测器”，它可以细化粗输出。

Hu等人[66]提出了一种多视图一致性推理来增强基于视图的三维形状补全中的几何一致性。定义了一种不需要真值监督的多视图一致性损失推理优化算法。此外，在ME-PCN中利用深度扫描[67]使网络对形状边界敏感，使ME-PCN能够在保持局部拓扑一致的情况下恢复细粒度的表面细节。为了借助来自同一物体的多个部分观测值来估计三维标准形状的6自由度位姿，

Gu等人提出了一种弱监督方法来解决这一问题。在训练过程中，网络利用多视图几何约束共同优化规范形状和位姿，可以推导出单个部分输入条件下的完整结果。多视图补全网络(MVCN)[68]，结合GAN和多视图信息来提高点云补全的性能。

其主要特点和缺点如下:

与其他方法不同的是，基于视图的方法的输入是图像，可以是RGB-D图像，也可以是深度图像。
由于可以从这些图像中获得不同的信息，性能将在很大程度上取决于视图的角度和数量。

C. 基于卷积的方法（Convolution-Based Methods）

受卷积神经网络(CNN)在二维图像上取得巨大成功的鼓舞，一些工作试图利用3D CNN来学习三维点云的体积表示。然而，将点云转化为三维物体会带来量化效果:(1)细节丢失;(2)不足以表示细粒度的信息。因此，据我们所知，有些工作直接将CNN应用于不规则点云、局部点云、缺陷点云进行三维形状补全。

1)前期工作

在点云处理方面，有几篇论文发展了作用于点云变换的离散三维网格的CNN。

Hua等人[70]在规则的三维网格上定义了卷积核，其中落在同一网格中的点被赋予相同的权重。

PointCNN[69]通过X-conv变换实现排列不变性。除了离散空间上的CNN，还有几种方法在连续空间上定义卷积核(图11)。

Thomas等人[71]设计了一个刚性和可变形的核卷积(KPConv)模块，利用可学习的核点集合来处理3D点云。

Wu等人[72]将动态滤波器扩展为一个称为PointConv的卷积算子。该算子可用于实现深度卷积结构。
在这里插入图片描述

   图11 规则网格(上)和点云(下)的层次卷积图。在规则网格中，卷积是在局部网格块上递归地进行的，这通常会降低网格分辨率(4 × 4→3 × 3→2 × 2)，同时增加通道数量。在点云中，X-Conv递归地将邻域的信息投影或聚合为更少但信息更丰富的代表性点。(9→5→2)[69]。

2)卷积编码器（Convolutional Encoder）

在这个领域中，点云将首先作为三维CNN的输入体素化。隐式特征网络(IF-Nets)由Chibane等人[73]设计，用于提供连续输出，可以处理不完整或稀疏输入数据的多种拓扑和完整形状。然而，关键的是，当输入数据中存在细节时，它们也可以保留细节，并可以重建铰接的人类。

Yi等[74]设计了稀疏体素补全网络(Sparse Voxel Completion Network, SVCN)，该网络由两个类似u -net的子网组成，分别用于结构生成和细化。结构生成子网络通过体素化将输入数据转换为一组稀疏体素，并输出代表三维曲面的密集体素。然后从结构细化网络中删除冗余体素。

然而，体素化过程会导致几何信息的不可逆损失。

Xie等[75]引入网格残差网络(Gridding Residual Network, GRNet)，以三维网格作为中间表示来处理不规则点云。在GRNet中，设计了Gridding和Gridding Reverse方法，在不丢失结构信息的情况下将点云转化为三维网格。提出了三次特征采样层，提取相邻点的信息并保留上下文知识。GRNet可以在保留三维点云的结构和上下文信息的同时对其进行卷积。然而，GRNet的体素表示仅用于重建低分辨率形状。

因此，Wang等人[76]开发了VE-PCN，将无序点集转换为网格表示，以支持边缘生成和点云重建。这种多尺度VE-PCN能够为点云补全生成细粒度的细节。

Liu等人[77]提出了MRAC-Net，其中包括一个各向异性卷积编码器，用于提取局部和全局特征，以增强模型对潜在特征的提取能力。

3)反卷积解码器（Deconvolutional Decoder）

除了特征学习之外，卷积还可以用于重建点云。Wang等人[78]设计了SoftPoolNet，将PointNet提取的特征根据激活情况进行组织，称为软池(soft pool)。区域卷积的设计是为了在解码阶段最大化全局激活熵。为了恢复点云的细节并保留原有的平面结构，Deng等[79]提出了三维网格变换网络(3D Grid Transformation Network)，计算重构点云的权重。

与PointCNN、KPConv和PointConv不同，在点云补全任务中，几乎所有基于卷积的方法都倾向于在应用三维卷积之前将点云体素化。因此，我们主要讨论这些基于卷积的方法在体积三维数据表示中的局限性:

首先，并非所有体素或网格表示都是有用的，因为它们包含扫描环境中已被占用和未被占用的部分。因此，在这种无效的数据表示中，对计算机存储的高需求是不必要的。
其次，体素或网格大小难以设置，影响输入数据的尺度，可能会破坏点之间的空间关系。
第三，计算和内存需求随着分辨率的提高呈三次增长。

D. 基于图的方法（Graph-Based Methods）

在这里插入图片描述

                     图12 基于图的网络的图示

在这里插入图片描述

                 图13 (a)从点xi和点xj对计算边缘特征eij。(b) EdgeConv运算符。EdgeConv的输出是通过收敛每个连接顶点发出的所有边的边缘特征来计算的[80]。

由于点云和图都可以视为非欧几里德结构化数据，因此将点或局部区域作为某些图的顶点来探索点或局部区域之间的关系是很方便的(图12)。将输入中的每个点作为顶点，通过基于相邻点的基于图的网络生成边缘。因此，图卷积自然适合处理点云。这些方法利用图卷积的优点，通常对空间邻域进行卷积，并通过收集每个点的邻域信息来生成新的图。与基于点的方法相比，基于图的方法考虑了区域几何细节。

作为一项开创性的工作，DGCNN引入了动态图卷积[80]。在动态图卷积中，相邻矩阵可以通过潜在空间中的顶点关系来计算。图建立在特征空间中，可以在DGCNN中动态更新。此外，EdgeConv设计用于动态计算每个网络层中的图，并可与现有架构集成(图1)。13);此外，LDGCNN[81]去除了变换，将DGCNN中不同层学习到的多层次特征连接起来。因此，可以优化性能和模型大小。在DGCNN的刺激下，Hassani和Haley[82]引入了多级网络，利用点和形状特征进行自监督重构。此外，继DGCNN之后，DCG[83]将区域链接编码为特征向量，并对点云进行从粗到精的细化。

除了动态图卷积之外，pointnet++[19]和FoldingNet[48]也可以看作是一种利用图卷积从采样中心点的固定邻接中挖掘信息的方法。

结合图卷积，Pan[29]设计了一种分层编码器，通过传播多尺度边缘特征来细化局部几何细节，这些特征是由骨架生成捕获的。然后，提出了边缘感知特征扩展(EFE)模块，通过突出点的区域边缘来扩展点的上样信息。心电图既能保留全局结构信息，又能保留局部模式特征。

Qian等人提出了Nodeshuffle和Inception DenseGCN[84]。前者利用图卷积网络(Graph Convolutional Network, GCN)较好地对相邻点的区域点特征进行编码，后者对多尺度特征进行聚合。

PU-GCN是将Inception DenseGCN与NodeShuffle[41]结合起来的一个新的点上采样管道。Shi等[85]提出了一种图导变形网络(Graph Guided Deformation Network)，将输入数据和中间数据分别作为控制点和支撑点，通过图卷积网络对点云补全任务进行优化建模。该网络通过网格变形方法模拟最小二乘拉普拉斯变形过程，具有对建模几何细节建模的自适应能力，缩小了网格变形算法与点云补全任务之间的差距。

Zhu等[86]设计了PRSCN，该算法首先采用点秩抽样方法，通过局部轮廓形式对特征点进行更客观的评分和采样。然后，考虑不同尺度特征之间的联系，设计Cross-Cascade块来整合特征。在保持内核大小的前提下，集成Leap-type EdgeConv扩展感受场。此外，利用全局特征和局部特征，提出了LRA-Net[87]来恢复具有更多细节和更平滑形状的完整点云，这些点云是由PointNet和图卷积网络(Graph Convolutional Network, GCN)的结构导出的。

1)注意辅助GCN:进一步将注意机制引入GCN。为了恢复细粒度形状，

Wu和Miao[88]引入了一种基于学习的方法。他们对部分输入的局部区域进行采样，对其特征进行编码，并将其与已开发的全局特征结合起来。图构建完成后，对所有的区域特征进行集合，并对图进行多头关注卷积。图注意机制使每个局部特征向量能够跨区域搜索，并根据高维特征空间中的关系选择性地吸收其他局部特征。

CRA-Net[89]设计了一个基于图注意的跨区域注意单元。该模块量化特定背景下区域特征之间的潜在联系，并通过全局特征进行解释。给定这样的链接，每一个有条件的区域特征向量都可以作为图注意来搜索。

在PC-RGNN[90]中，设计了一个图神经网络模块，通过局部-全局注意机制和基于多尺度图的上下文聚合来全面捕捉点之间的关系，大大增强了特征的学习。

但是，构建基于图的网络存在以下两个挑战:

首先，定义适合动态大小邻域的算子，并保持cnn的权值共享方案。
其次，利用每个节点邻居之间的空间和几何关系。

E. 基于GAN的方法

在这里插入图片描述

      图14 生成对抗网络的描述。基本架构是基于生成器(G)和鉴别器(D)之间的对抗。G被设计为通过生成器函数从简单分布z ~ pz中通过随机样本产生与实际数据(x ~ pdata)不同的点。鉴别器的任务是将合成样品与真实样品区分开来。

与传统的CNN相比，GAN[91]架构使用了一个判别器隐式学习来估计生成器提供的点集合(图14)。由于三维数据的特点，GAN在点云补全中的集成存在一些固有的挑战:

不同于二维图像的网格结构，二维图像中像素点的位置是明确的。相反，具有不同3D形状的点云是非结构化的。一般来说，在三维形状上训练的GAN产生的点云具有明显的不均匀性。也就是说，点不是均匀地分布在形状的表面上。这种不均匀性会导致形状上有多余的洞，从而破坏预测的完整性。
点云的无序性决定了其补全任务与二维图像补全有明显不同。在二维图像绘制中，可以很容易地测量部分输入可见区域与预测输出之间的重构一致性，给出相应的网格对齐像素。这种比较在三维形状补全中是具有挑战性的，因为两个三维形状的对应区域可能位于三维空间的不同位置。GAN反演的重建效果较差，不利于完成形状补全任务。
然而，简单的gan只能产生少量的(1024或2048)个点集合，因为GAN的点分布非常复杂，训练起来也非常困难。
因此，研究人员在传统GAN的基础上对点云补全进行了很大的改进。

1)端到端机制:端到端学习是三维点云补全的常用方法。

Wang等人[92]通过集成3D编码器-解码器生成对抗网络(3D- ED - GAN)和长期循环卷积网络(LRCN)，引入了一种新的结构。3D- ED -GAN利用编码器将体素化的3D形状映射到概率潜在空间，并使用GAN促进解码器在潜在特征表示的帮助下生成完整的体积形状。然而，这些方法只能使用3D体作为输入或获得体素表示的结果。Achlioptas等人[93]使用全连接层设计了具有生成器和鉴别器的

r-GAN。训练AE学习潜在空间。l- gan在潜在空间中训练，比覆盖数据分布的简单gan更容易训练。在潜在表征的训练中，多类GAN与特定类GAN的训练能力基本相同。

Gurumurthy和Agrawal[94]设计了一种利用潜在GAN和AE的方案。然而，他们对每一批输入都使用了耗时的优化程序来选择GAN的最佳种子。Yu等人[95]设计了一种点编码器GAN，其中利用最大池化层来解决学习过程中的不规则问题，并在编码器-解码器架构中添加了两个t - net(源自PointNet)来更好地表示输入的特征。提出了一种混合恢复损失函数来计算两组无序数据之间的多样性。

Chen等人[96]提出了一种端到端条件GAN，称为GeneCGAN。从遗传角度出发，设计了模拟遗传层。它在使用祖先信息和邻域连接的分层根树中执行。通过先验融合策略，将全局特征作为条件信息附加到树的根节点上，学习输入的条件概率分布。

点云的有效潜在空间表示为三维形状重建提供了重要的基础信息。

Wen等[97]提出了Cycle4Completion，在完整三维形状和不完整三维形状的隐空间之间进行了两次同步循环变换。循环变换可以帮助模型学习三维形状，通过互补形状产生完整或不完整的形状。

Chen等人[98]提出了一种非成对形状补全的框架，其核心是一个自适应网络，该网络作为生成器将原始点扫描的潜在代码转换并将其映射到干净完整物体扫描的潜在空间中。这两个潜在空间通过将转移问题限制到各自的数据流形来规范问题。

Zhang等[99]提出了ShapeInversion，首次将GAN反演引入形状补全。ShapeInversion利用对完整形状进行预训练的GAN，通过搜索潜在代码来获得最能重建给定部件输入的完整形状。通过这种方式，ShapeInversion消除了对成对训练数据的需求，并且可以在训练良好的生成模型中结合丰富的先验信息。结合潜在空间GAN和拉普拉斯GAN, Egiazarian等人[100]设计了一个多级网络，可以产生具有越来越多细节级别的3D物体。

Li等人在GAN的基础上提出了一种PU-GAN，它是一种旨在从潜在空间中学习点分布的上采样网络。PU-GAN还可以对物体表面斑块上的点进行上采样。在发生器中构造了一个向上-向下-向上扩展模块，用于上采样点特征，该模块具有误差反馈单元和自校正功能。此外，还开发了一个自关注单元，以增加功能的集成。

此外，Li等人[101]提出了对GAN的双重修饰(PC-GAN)。在PC-GAN中，分层贝叶斯网络和隐式生成架构通过分层和可解释采样相结合。该方法的关键在于后验推理模型，该模型是针对隐变量进行训练的。此外，不是使用SOTA Wasserstein GAN目标，而是设计了一个三明治目标，以产生比通常使用的对偶形式更紧凑的Wasserstein距离估计。因此，PC-GAN提供了一个通用的体系结构，可以很容易地包含现有的GAN。

Wen等人[102]设计了一个双生成器网络，其中第一个生成器用于学习点嵌入，第二个生成器用于基于深度优先点嵌入对生成的点云进行细化以生成均匀输出。为了尽量减少噪声和不完整点云几何损失的影响，PF-Net[103]保留了不完整输入的空间排列，并可以计算缺失区域的复杂几何形状。为此，PF-Net使用基于特征点的多级生成来预测分层网络中的缺失部分。PF-Net还利用多级完井和对抗性损失来产生更真实的缺失区域。其中，对抗损失能较好地解决预测中的多模式问题。

Cheng等人[104]提出了一种基于端到端生成对抗网络的密集点云补全架构(DPCG-Net)。DPCG-Net设计了两个基于gan的模块，分别将点云补全转化为局部点云编码得到的全局特征分布与地面真值之间的映射。

2)精化:此外，精化策略通常也与GAN相结合。Wang等人[105]开发了一种用于学习形状先验的特征对齐方法。此外，设计了一种将形状先验与精细相结合的粗变细方法。特征对齐的损失包括L2距离和最大平均差异生成对抗网络(MMD-GAN)的对抗损失。Wang等人[42]设计了一个以级联细化网络(CRN)作为生成器的点补全网络，利用输入的细节高质量地合成这些缺失部分。此外，他们还设计了一个补丁鉴别器，该鉴别器使用对抗性训练来了解精确的点分布，并对生成的形状进行不同于地面事实的惩罚。此外，为了生成具有详细几何形状的高质量目标，Wang等人将该策略扩展为合成细粒度目标。提出了两种自我训练策略，以提高在监督和自监督环境下的重建性能。

3)多视图GAN:同一个3D模型的视图共享一些可以探索的共同信息，包括从不同角度看到的全局和区域信息。Hu等人[68]提出了一种多视图补全网络(MVCN)(图15)，它利用3D形状所有视图的信息来辅助每个单一视图的补全。MVCN得益于条件GAN的多视图表示和网络结构，提高了三维补全的性能。Wang等人[106]试图将三维点云生成问题转化为二维几何图像生成问题，并引入对抗VAE，将对抗学习与VAE相结合，对GIG进行优化。虽然独立创建3D形状的深度图很容易，但有两个缺点。首先，它们不鼓励来自同一3D物体的深度图之间的一致性，从而影响通过反向投影完成的深度图获得的3D物体的精度。其次，他们无法完成深度图并使用来自同一3D物体的其他深度图的信息。完成单一深度图的精度是有限的。

4)与强化学习(RL)集成:最近，强化学习(RL)已被集成到GAN中。Sarmad等人提出了RL-GAN-Net，其中强化学习机制可以控制GAN。该结构可以通过GAN的控制将带噪声的缺陷输入数据转换成高保真的完整形状。Vaccine-Style-Net[107]在三维曲面的函数空间中进行，将三维曲面表示为连续决策边界函数。同时，嵌入了一个RL单元，从部分输入导出完整的3D几何形状。

5)与GCN集成:除RL外，GCN也常与GAN结合使用。Valsesia等人[108]、[109]利用图卷积研究了生成模型的无监督问题。他们强调GAN的生成器，并定义了图卷积方法。他们设计了一个学习产生局部特征来近似嵌入输出几何的网络，并定义了一个图卷积的上采样层，以便使用自相似先验更有效地采样。Xie等[110]利用通道关注EdgeConv来学习区域特征和全局形状，提出了一个SpareNet。SpareNet利用形状特征作为样式代码在折叠过程中调整规范化层以增强其功能。此外，使用可微渲染器将完整的点云投影到深度图上，并应用对抗训练来提高从不同视点对现实的感知。Li和Baciu[111]设计了一种分层自注意GAN (HSGAN)，使用随机码，并将GCN和自注意相结合，将其分层转换为表示图。该模型将全局图的拓扑嵌入到形状生成中，利用潜在的拓扑信息恢复三维形状的几何结构。

F. 基于变分自编码器(VAEs)的方法

经典的AEs和VAEs是在一个完整的3D对象上训练的。然后确定模型的权重以生成不完整数据的潜在表示。生成模型在条件生成网络设置中完成部分输入。完成生产基于从完整形状中提取的学习模式分布。

在这里插入图片描述

                      图16 HyperPocket架构与单一VAE编码器[36]。

Spurek等人[114]引入了一种名为HyperPocket的变分自编码器架构，该架构能够解纠缠潜在表示，从而生成已完成的3D点云的多个变体(图16)。点云处理被分割成两个不相连的数据流，并利用超网络范式来填充被称为缺失对象部分留下的空间口袋。

Pan等人设计了一个变分关系点补全网络(VRCNet)，利用双路径单元和基于VAE的关系增强模块进行概率建模。设计了多尺度点信息高效利用和集成的关系模块，包括点自关注核单元和点选择核单元。

Zamorski等人[115]提出了三种生成建模方法的应用，并对AE、VAE和对抗性自编码器的体系结构进行了定量和定性测试。此外，他们还介绍了一种利用扩展的PointNet模型(Double PointNet)对基于局部特征和全局形状的点进行操作的方法。AutoSDF[116]提出了一种3D形状的自回归先验，用于解决形状补全、重建和生成等多模态3D任务。三维形状上的分布被建模为三维形状的离散化、低维、符号网格样潜在表示上的非顺序自回归分布。这使得网络能够根据来自任意一组空间锚定查询位置的信息来表示3D形状的分布，从而在这种任意设置中执行形状补全。

然而，基于VAE的方法的优缺点可以归纳为以下几点:

与其他(3D)生成模型相比，基于VAE的方法训练更加稳定。
可以操纵VAE的潜在表示来控制生成的点云的形状[114]。
基于人工智能的方法在质量上无法与基于GAN的生成模型相比，而基于人工智能的方法在多样性上优于基于gan的方法。由于注入的噪声和不完美的元素度量(如平方误差)，生成的3D形状可能不够光滑。
基于vae的方法通过AutoSDF[116]得到增强，这是一个类似VQ-VAE的模型。VQ-VAE[117]在图像生成方面的巨大成功也将推动基于VAE的点云补全方法的发展。

G. 基于Transformer的方法

Transformer[118]首先被提出用于自然语言处理中的句子编码，之后在二维计算机视觉(CV)领域得到普及[119]，[120]。以PCT[121]、Pointformer[122]和PointTransformer[123]为先导，Transformer已经开始了它在点云过程中的旅程。

Yu等人[33]利用Transformer表示学习能力的优点，将点云补全视为集合到集合的平移问题，提出了一种Transformer点云补全的编码器-解码器结构。通过将点云表示为一组具有位置嵌入的无序点，可以将点云转换为一系列点代理。采用Transformer进行点云的生成。为了便于Transformer更好地利用点云三维几何结构的感应偏置，他们进一步设计了一个几何感知块，明确地模拟了局部几何关系(图17a)。

Xiang等人[112]没有利用变压器的表示学习能力，而是设计了Snowflake Point Deconvolution (SPD)的SnowflakeNet，将基于变压器的结构应用到解码过程中。SnowflakeNet将完整点云的生成建模为三维空间中点的雪花状生长。在每个SPD之后，通过拆分父点逐渐生成子点。揭示几何细节的思想是在SPD中引入一个跳过变压器来学习最适合局部区域的点分裂模式。跳跃式变压器利用一种注意机制来总结以前的SPD层中使用的分裂模式，从而导致当前SPD层的分裂。SPD产生的局部紧凑、结构化的点云可以准确捕获局部斑块中3D形状的结构特征，使网络能够预测非常详细的几何形状(图17b)。

在这里插入图片描述

                图17(a)变压器块与几何感知变压器块[33]的比较;(b)跳过变压器的详细结构

此外，Lin等人[124]提出了PCTMA-Net，其中Transformer的注意力机制可以提取点云中的局部上下文，并利用其不完整的局部结构细节。基于变形图集的点生成网络充分利用提取的点变形特征，利用在形状上定义的图来预测缺失区域。在PMP-Net[113]的基础上，PMP-Net++[21]引入了一个变压器增强的表示学习网络，显著提高了完成性能。

然而，基于Transformer的模型有一些局限性。

与其他方法相比，由于Transformer参数的数量，该模型过于庞大，无法部署在设备上。
除了SANet[30]中注意力的视觉解释外，Transformer提高性能的机制很难解释。

H.其他方法

除了上述方法外，研究人员还对上采样和预训练方法进行了研究。

Wen等[113]设计了PMP- Net，通过移动不完整输入中的每个点来完成点云，以保证点移动路径(PMP)的总距离最短。因此，PMP- Net基于点的总移动距离约束来预测每个点的唯一PMP。

Son和Kim[125]引入了一个形状补全框架来保留全局背景和局部特征，其中设计了一个对称感知上采样模块(SAUM)来保留几何细节并利用形状补全的对称性。

Wang等人[126]开发了一种称为遮挡补全(OcCo)的预训练机制，其工作原理是屏蔽被遮挡点，使其不受来自不同摄像机视图的观测结果的影响，然后优化补全模型。通过这种方式，该方法学习了一种预训练的表示，该表示可以识别嵌入在真实点云中的固有视觉约束。

七、比较

本节总结了几种数据集上最新方法的结果。我们将比较这些方法的性能，并为今后的工作提供一些建议。结果来自原始论文。因此，分辨率和数据集设置是不同的。如果未指定CD类型或数据集设置，则可以在相同分辨率下比较性能。

A.在提供了Ground Truth的数据集(PCN、ModelNet和Completion3D)上的性能总结。

  表2 三维点云在PCN上的补全性能比较。其中，“CD”表示平均倒角距离，“EMD”表示地球移动距离。“-”表示无法达到的性能。(CD损耗按1000进行缩放，EMD损耗按100进行缩放。如果未指定，则CD表示CD- 1)

在这里插入图片描述

   表三 三维点云在ModelNet和Completion3D上补全性能的比较。“CD”表示平均倒角距离，“EMD”表示地球移动距离。“−”代表不可达到的性能。(CD损耗按1000倍缩放，EMD损耗按100倍缩放)

在这里插入图片描述

PCN是三维形状补全中最常用的数据集。这三个数据集都属于合成基准。如表II、III、V和图s2(见补充资料)所示，有各种方法的结果，可以得出一些推论如下:

以MLP为基本单元的基于点的模型被广泛应用于逐点信息的学习。
基于图的网络和基于GAN的网络在完成三维点云方面都取得了很好的效果。更需要注意的是这两种方法的结合。
基于变形器的模型由于其处理不规则数据的强大能力而引起了越来越多的关注。SOTA的方法可以归功于最新的SnowflakeNet。然而，将基于变压器的模型扩展到谱域仍然是一个挑战。

B.在没有提供Ground Truth的情况下对KITTI的性能总结

         表四  三维点云在风筝上完成性能的比较。“MMD”表示最小匹配距离，“FD”表示保真距离。“−”代表不可到达

在这里插入图片描述

                               表五  基于点云处理方法的里程碑深度学习网络综述

在这里插入图片描述
由于缺少ground truth, KITTI数据集中的性能通常是通过测试ShapeNet中直接在“cars”训练集上训练的模型来获得的。还有几种方法在对模型进行KITTI测试的同时，在ShapeNetCars as上对模型进行微调[75]。表IV、V和图s2(见补充材料)给出了多种方法在KITTI上获得的性能，从中可以列出一些观察结果如下:

KITTI数据集来源于真实世界的扫描。在某些情况下，没有提供Ground Truth和最终稀疏等内在挑战给点云补全带来了困难。
如表3所示，面对这样的挑战，基于point的完成方法、基于GAN的完成方法和基于transformer的完成方法都取得了良好的效果。
此外，针对现实世界中的点云设计了一些作品[43]，[99]，在这些方向上应该付出更大的努力。

C.复杂性分析和泛化性能

为了进一步了解模型性能，进一步分析参数(Params)和理论计算成本(FLOPs)，比较模型的复杂性和耗时情况。从表六的第二列和第三列可以看出，FoldingNet[48]拥有的参数数量最少，而GRNet[75]和PF-Net[103]由于结构复杂，拥有的参数数量较多。另一方面，PMPNet[113]的计算成本最低，而GRNet的计算成本仍然最高，因为它们的网格上的算子需要更多的参数和计算量。值得注意的是，SnowflakeNet[112]和PoinTr[33]中由于注意机制的原因，参数的数量也相对较高。

此外，模型的泛化结果也在表六中进行了比较，因为未知类别的性能也是另一个关键指标。由于提出了ShapeNet55和ShapeNet34来衡量泛化性能，因此模型在看到的34个类别上进行训练，并在未看到的21个类别上进行评估。从表六的最后两列可以看到，PoinTr[33]在ShapeNet55和ShapeNet34中表现良好，证明了PoinTr最显著的泛化。

      表六 复杂性分析。报告了现有方法的参数个数和理论计算成本。还提供了shapenet-55中所有类别和shapenet34中未见类别的平均l2倒角距离

在这里插入图片描述

八、应用

点云补全在许多应用中都是一项重要的技术，并且已经积累了一些成果。因此，本节将介绍点云补全在众多领域的应用。我们将首先讨论目前可以利用点云补全的应用。然后，对点云补全的四个主要应用进行了综述。

                图18  (a)施工[131]、(b)综采设备[132]、(c)三维重建[133]、(d)自主室内机器人定位[134]中的点云补全。

A.当前应用

本文讨论的点云补全技术是对象级补全。因此，这些方法在真实场景中的单物体补全方面非常出色，例如HyperPocket[36]模型在真实场景中产生的椅子重建。基于关系的方法[57]通过用另一个对象的部分扫描来完成每个对象的部分扫描，从而完成成对场景的部分扫描。两者都可以完成现实世界的场景，方便室内机器人。此外，Gu等人提出了一种弱监督方法，在给定与同一实例相关的多个部分观测值的情况下，估计3D典型形状和6-DoF位姿进行对齐。该方法可以实现对野外物体的补全，有利于室外场景中三维物体的高精度检测或跟踪。考虑到许多工作对于综合数据集来说是强大的，应该做出重大努力，在更实际的场景中实现对象级点云补全。

B.建设（Construction）

由于完成点云的巨大效益，制造业[127]、[128]、建筑业[129]、[130]等行业迫切需要完成点云来提高生产率。例如，如图18a[131]所示，在某预制混凝土制造厂获取点云。与传统的人工或其他基于设备的测量方法相比，传感器捕获的点云数据具有更高的测量速率和更高的测量精度。

C.采矿空间（Mining Space）

目前，三维点云处理技术在采矿中得到了广泛的应用。例如，美国国家机器人工程中心利用三维激光扫描仪获得的点云数据，成功绘制了高精度的地下道路三维地图，并提出了基于三维地图的智能挖掘模型[135]。利用三维点云数据对整个综采工作面进行描述和绘制，准确直观地反映煤壁与综采设备之间的空间位置关系。该方法为刮板输送机及时调整液压支架位移提供方向信息(图18b)[132]。重要的是，完整的点云将为采矿空间提供更准确的信息。

D.自动驾驶

一方面，自动驾驶仪的主要任务是寻找紧凑的三维点云表示并保持重构能力;如图18c所示，重构有助于自动驾驶中数据的存储。由于每辆自动驾驶汽车(AV)都必须存储高清地图并收集实时激光雷达扫描，因此对于大型自动驾驶汽车车队来说，数据存储成本高昂。目前还没有成熟的压缩标准来处理大规模开放场景三维点云[133]，重构技术可以提供三维点云压缩，降低数据存储成本。点云补全可以用于重建，获得更高质量的点云。

另一方面，高清地图的制作相对昂贵，而且不适合每个场景。因此，提出了语义场景补全来完成稀疏激光雷达扫描。在这一领域，基于卷积的方法得到了广泛的应用。然而，由于点云的体素化，场景的细节丢失了[136]-[138]。为了解决这个问题，通过基于点的方法完成稀疏激光雷达扫描可能是一个解决方案。

图像、点云和雷达数据可以结合起来，为自动驾驶汽车的导航和决策提供精确、地理参考和信息丰富的线索[139]。低端激光雷达和高端激光雷达的数据也被融合。同时，这些数据的合并也存在一些困难。最重要的是，在跨源数据融合中，点云的稀疏性导致数据不一致和缺失。因此，点云补全可以用来解决实时激光雷达扫描的稀疏性问题。

E.机器人技术

近年来，点云技术在机器人领域得到了广泛的应用。定位和绘图是未知环境下自主移动机器人导航的关键。精确的6自由度(6-DoF)姿态是无人驾驶飞行器(uav)或人形机器人和执行任务的机器人的理想选择。然而，在3D环境中使用RGB-D相机进行定位仍然存在一些挑战:(1)机器人在3D环境中通常需要很长时间来定位自己;(2)三维环境有变化。例如，如图18d所示，Luo等人提出了一种无需给定初始姿态即可确定机器人六自由度全局定位的方法，称为快速场景识别与对齐(Fast Scene Recognition and Alignment, FSRA)系统[134]。在公共空间和工程空间中，三维环境点云地图越来越受到人们的关注。三维环境地图对自主移动机器人在没有GPS的室内环境中有很大帮助。然而，这些精确的位置和映射仍然需要一个完整的点云作为先决条件。

九、未来的方向和开放的问题

基于以上讨论，需要解决两个问题:(1)克服上述挑战，实现高精度、鲁棒的补全。(2)运行速度快，精度保证高。在这一部分中，我们提出了几个未来的研究方向，以增强基于深度学习的点云网络的性能:

与图像不同，点云无法在配对的点云中找到对应的“点”。如果能解决这个问题，许多图像生成的方法也可以应用于点云补全。
基于视图的方法可以与最近流行的神经辐射场(NeRF)相结合，从图像中重建更逼真的3D形状。
点云补全需要引入新的生成模型，如扩散模型。虽然已经制作了一些作品[37]，但需要提高样品的生成速度。
此外，建立新的损失函数是未来需要解决的一个重大挑战，例如DCD损失[39]。
虽然基于深度学习的点云补全取得了令人印象深刻的效果，但现有的网络几乎都是在现有的数据集中进行的，如PCN、ModelNet、Completion3D等。这些数据集来源于CAD。因此，迫切需要开发在现实世界中捕获的新数据集，以使网络在野外更具鲁棒性。虽然无监督方法[99]、[108]、[109]已经得到了发展，但由于从现实世界中捕获的点云无法获得地面真值，因此需要对其进行更多的处理。
由于点云的无序性和不规则性，点云的早期处理主要是体素化。但是，这种处理方法会导致点云有效信息的丢失，增加计算复杂度。虽然已经设计出了一些特征提取网络，如PointNet和GCN，但是特征学习还需要付出更多的努力。在解码器设计中，只有全连接网络、折叠网和新提出的基于变压器的解码器网络。
虽然在三维深度学习模型方面取得了显著的成就，包括PointNet[18]、pointnet++[19]、PointCNN[69]、DGCNN[80]、FoldingNet[48]、PF-Net[103]、PoinTr[33]等工作[113]、[125]、[126]。由于变压器在计算机视觉中优于各种方法，基于变压器的方法将在未来几年得到广泛的研究。
有限网络可以实现鲁棒实时完成任务。此外，网络训练过程是耗时的。研究重点应放在轻量化和紧凑的结构设计上。

十、结论

本文对三维点云补全方法进行了系统的综述。此外，还对这些方法进行了全面的分类和性能比较。介绍了每种方法的优点和局限性，并列出了可能的研究方向。本文详细介绍了深度学习在点云完成方面的研究挑战和机遇，以促进其潜在的发展。目前，几乎所有的方法都在努力解决两个主要挑战:充分利用结构信息和预测细粒度完整的三维形状。尽管已经取得了重大进展，但要使点云补全成为现实，还需要付出许多努力。