【点云语义分割】PointMatch：弱监督三维点云语义分割的一致性训练框架

本文链接：https://blog.csdn.net/qq_43583311/article/details/138032725

PointMatch提出了一种新颖的框架，利用一致性训练处理3D点云的弱监督语义分割，通过数据增强和伪标签优化，提高模型鲁棒性和表征学习效率，即使在标签稀疏情况下也能保持性能。

摘要由CSDN通过智能技术生成

PointMatch: A Consistency Training Framework for Weakly Supervised Semantic Segmentation of 3D Point Clouds

摘要：

点云的语义分割通常依赖于密集的标注，这既耗费精力又成本高昂，因此，研究仅对稀疏点进行标注的弱监督方案的解决方案引起了广泛关注。现有的工作从给定的标签开始，在数据（如点内关系）的指导下，将标签传播到高度相关但未标注的点上。然而，这种方法存在以下问题：(i) 对数据信息的利用效率不高；(ii) 对标签的依赖性很强，因此在注释数量少得多的情况下很容易被抑制。因此，我们提出了一个新颖的框架--PointMatch，它通过应用一致性正则化来充分探测数据本身的信息，并同时利用弱标签作为辅助，从而同时立足于数据和标签。通过这种方法，可以从数据和标签中学习到有意义的信息，从而更好地进行表征学习，这也使模型在标签稀疏程度上更具鲁棒性。

介绍：

最近，有几种弱监督点云语义分割方法被提出，其中包括投影二维图像[44]、子云级[48]、段级[38]和点级[10, 11, 26, 52]监督。在本文中，我们将重点解决稀疏点级标签的设置问题，这也是应用中最方便的注释方案之一。这项任务的关键挑战在于，在点云监督非常稀疏的情况下（例如，在 [11] 中，0.1%、0.01% 的注释点；在 [26] 中，0.02% 左右的注释点），很难学习出一个稳健的模型。现有的解决方案主要致力于通过重复使用有限的监督来缓解标签稀疏性，即首先探测高度相关的点 [11] 或超级象素 [26] 。然而，这一系列工作都是明确地构建在标签传播的基础上，并采用点云数据作为传播导向，存在以下问题：(i) 对数据信息的利用不足限制了学习效率；(ii) 传播的标签强烈依赖于原始标注尺度，因此在给定的标签数量少得多的情况下，性能很容易受到抑制。因此，我们建议同时探究标签和数据本身的信息，以提高表示学习的效率和鲁棒性。

最近，一致性训练被认为是一种强大的算法范式，可以从标签稀缺的数据中进行稳健学习，例如在无监督/半监督学习[8, 12, 36, 50]和无监督/半监督领域适应[6, 21, 22, 35]中。其工作原理是迫使模型在输入样本受到不同扰动/增强（称为不同视图）的情况下做出一致的预测，其中一个视图中的预测通常作为另一个视图的伪标签。受此启发，我们为弱监督三维语义分割提出了一个新颖的一致性训练框架 PointMatch。鉴于整个场景的点云标签稀疏，PointMatch 利用一个视图中的每个点预测作为另一个视图的伪标签，以鼓励场景两个视图之间的预测一致性。这种一致性有助于：（1）对易扰动的低层次输入特征的鲁棒性；（2）学习有用的高层次表征以保持预测一致性的更强能力。此外，所提供的标签还能起到额外的监督作用，帮助识别高级语义特征，这也有利于从数据中学习表征。这样一来，对给定标签的依赖就会减轻，并能从点云数据本身获取更多信息。

从一种观点来看，伪标签应该是高质量的，以便为另一种观点提供积极的指导。然而，特别是在早期学习阶段，存在着相当多的错误预测。因此，我们利用点云的固有结构，通过整合超级点分组信息来提高伪标签的质量。在超级点分组信息中，相似点通过低级特征（如位置和颜色）被聚类到同一组中，并被假定具有相同的语义。具体来说，分组信息用于纠正偏离超级点 "主流 "的次要预测。尽管超级点感知伪标签具有良好的特性，但它实际上引入了来自pretext超级点生成的噪声。因此，为了充分利用这两种类型的伪标签，我们设计了一种自适应伪标签机制，即鼓励模型在开始时更多地相信超点感知伪标签，当模型本身足够可靠时，再逐渐采用其原始预测。

相关工作：

Fully Supervised 3D Semantic Segmentation：略

Weakly Supervised 3D Semantic Segmentation：

现有研究探索了各种弱监督类型的三维语义分割，包括二维图像[44]、子云级[48]、段级[38]和点级监督[11, 26, 34, 52]。前三种类型可归类为间接注释 [11]。44] 的研究利用了点的投影二维图像上的注释。在[48]中，首先使用子云标签训练分类器，然后通过类激活映射技术[55]生成点级伪标签。另一种方法是，[38]预先生成片段/超级点，将稀疏的点击注释扩展为片段级监督，并将未标记的片段分组到附近相关的已标记片段中，以共享标签。对于点级弱监督，[11]建议通过学习梯度逼近和利用低级平滑约束，只使用 10%的标签。文献[11]进一步研究了标签比例更低（1‰）的困难设置，提出了基于利用相邻点之间语义相似性的语义查询网络（SQN）。另一项研究 OTOC [26] 提出了一种新颖的弱监督设置，即 "一物一点击"（"1thing1click"），即场景中的每个实例只注释一个点。他们采用了一个额外的网络分支来探测超级点之间的关系，并在高度相关的点之间传播标签。此外，[34] 的作者还提出了一种主动学习方法，在有限的预算内注释选定的超级点，以最大限度地提高模型性能。另一个研究方向是三维点云的自监督预训练[10,25,33,51,53]。预训练通常需要较弱的标签，甚至不需要标签，可为下游任务提供更好的网络初始化。

Consistency Training：

一致性训练是一种强大的算法范式，用于从标签稀缺的数据中进行稳健学习。它以伪标记的方式，即使用一种变换的预测结果作为另一种变换的拟合目标，在不同的输入变换[47]（如对抗性扰动[28]或数据增强[36, 50]）下确保预测的稳定性。因此，它结合了一致性正则化和伪标记（或自我训练）的优点。这种方法已被应用于许多领域，如半监督学习（SSL）[2, 3, 36, 50]、无监督学习（USL）[8, 12]、无监督领域适应（UDA）[6, 35]和半监督领域适应（SSDA）[21,22]，所有这些都证明了一致性训练在从标签稀缺的数据中学习高质量表征方面的有效性。最近，又有一些研究将一致性训练扩展到其他任务中，如用于图像分割的无监督领域适应[27]和半监督三维物体检测[43]。

据我们所知，这是首次将一致性训练应用于三维点云的弱监督语义分割。与之前的工作不同，一致性训练被创新性地应用于弱监督场景，即在每个训练样本中提供有限的点监督。此外，我们的工作还适当地利用了点云中的超点分组信息，进一步完善了整个框架。

模型方法：

我们首先以室内场景为例，提出弱监督三维语义分割问题。给定场景的点云 P∈R~N×D 包含 N 个具有 D 维特征的点，其中只有部分点标注了训练信息。有标签的点表示为 {(xl i, yi), i∈ L}，其他无标签的点表示为 {xu i , i∈ U }、其中，L 和 U 是两个集合，满足 L∩U = ∅ 和 L∪U = 〈N 〉 （〈N 〉 是 {1, 2, - - , N } 的简称，下同）。f 的目标是预测每个点 xi 的语义类别 yi∈ 〈C〉 、其中 C 是可能类别的数量。以点云 P 为输入，f 对 P 的所有 N 个点输出所有 C 类的预测概率 Q∈ [0, 1]N×C 。用 y∈ 〈C〉N 表示整个场景的弱语义标签，用 Y∈ {0, 1}~N×C 表示其单次扩展。要优化 f，一种直接的方法是计算 Q 与 Y 之间的交叉熵损失 Lce，其公式为：

其中，|L| 表示 L 的集合大小，下标 i 表示行索引，因此 Qi 和 Yi 是与第 i 个点相对应的两个 C 类分布。在推理阶段，只需在 Q 的每一行中选择得分最高的类别，即可根据 f 的预测结果生成场景的语义分割结果。

Consistency Training

所提出的一致性训练框架侧重于更好地利用数据本身，通过将一个视图中的预测作为另一个视图的伪标签，鼓励模型在输入场景的两个视图之间实现点预测一致性。这种一致性训练方法有三个优点：(i) 各种增强措施能使网络对低层次输入特征的各种扰动具有鲁棒性；(ii) 一致性目标有助于模型从点云数据本身提取高层次语义特征的能力；(iii) 自我训练过程隐式地将稀疏的训练信号传播到未标记的点，并提供密集的伪标签，从而提高了学习的稳定性。

形式上，给定点云 P∈RN×D 后，我们的 PointMatch 应用两组不同的数据增强，分别创建 PA∈R~N×D 和 PB∈R~N×D 的两个视图。为避免过多破坏点云的局部结构，我们进行了场景级增强，如偏移、缩放、旋转、翻转、抖动等。然后，将得到的两个视图 PA 和 PB 输入三维 U-Net fθ，进行点语义预测，其中 θ 为网络参数。网络 fθ 输出 PA 的每点概率分布，表示为 QA∈[0, 1]~N×C ，类似地，可以从 PB 生成 QB∈[0, 1]~N×C ，公式为：

下一步，我们根据 QA 生成 QB 的伪标签，以创建自洽循环。具体来说，我们选择每个点最有可能的预测类别（以及其置信度得分）来形成伪标签，即 QA 每一行中最高值的指数。然而，QA 通常是有噪声的，甚至包含许多不确定的预测，因此直接使用可能会给 QB 提供负面的指导，并损害整个学习方案。因此，我们要进行过滤操作，忽略那些置信度低于阈值 τ 的预测，从而提高伪标签的质量。将过滤掩码记为 m∈[0, 1]~N ，其生成过程如下：