【最新综述】弱监督3D点云语义分割综述(上)

A survey on weakly supervised 3D point cloud semantic segmentation

摘要

      随着三维点云数据采集技术和传感器的普及和发展,基于深度学习的三维点云研究取得了长足进步。随着可访问数据集数量的增加,完全有监督的语义分割任务的准确性和有效性大大提高。这些方法训练神经网络,以更少的点标签来处理三维语义分割任务。 除了全面概述三维点云弱监督语义分割的历史和现状之外,还详细介绍了最广泛使用的数据采集传感器、可公开访问的基准数据集列表以及未来潜在的发展方向。

1.INTRODUCTION

      在计算机视觉领域,人们对图像进行了广泛的研究,以支持机器理解真实世界,但二维数据存在局限性,如物体遮挡[1]和缺乏深度信息。相比之下,三维数据可以提供更丰富的空间和深度信息。点云是一种常用的三维数据格式,能很好地保留原始几何信息,因此在许多三维应用中被用来表示[2]。

       对三维场景进行语义分割的研究在遥感、自动驾驶、医疗等领域做出了卓越贡献。自PointNet [3]提出以来,基于深度学习的点云语义分割工作在过去五年中得到了蓬勃发展,为了获得更好的语义估计结果,文献[4-6]中提出了许多网络架构建议。

         由于点云数据的无序、非结构化和同源性质,对三维数据进行每点标注既费时又费力。文献[8-11]中的研究证明了弱监督方法在 2D 图像语义分割领域的成功应用。受此启发,越来越多的研究开始关注三维点云中的弱监督语义分割。特别是,图 1 显示了从 2018 年到现在的现有方法的时间概览,其中说明了基于三个类别的弱监督三维点云语义分割的起源和发展时间,这些方法能够在使用较少标签进行训练的情况下获得有竞争力的结果,证明这一方向具有潜在的研究和应用价值。

     本文回顾了弱监督三维点云语义分割的发展历程,并将现有方法分为三类: (a) 基于二维标签的方法。(b) 基于有限三维标签的方法。为了降低标注成本,这些方法只需要标注部分点云数据作为训练约束条件;以及 (c) 基于伪三维标签的方法。与上述方法不同的是,这些方法根据未完全标注的点云为未标注点生成伪标签,然后使用伪标签和真标签来约束模型训练。基于这三类方法,我们对其进行了进一步分析,并探索了适用于所有方法的通用框架,从而在算法层面对现有方法进行了细致的比较和技术总结。此外,我们的工作还回顾了最广泛使用的数据集和传感器,并对未来的工作进行了预测。

2.GENERAL FRAMEWORKS

       点云的语义分割旨在为每个点生成语义标签,然后进行聚类。近年来,基于深度学习的监督算法取得了根本性进展。然而,由于点的数量庞大,对点云进行全面标注仍是一个极具挑战性的问题。因此,在点云语义分割中引入弱监督方法至关重要且意义重大。

     本文提出了一个通用算法框架,能够支持现有的三类方法,包括以下五个步骤:

1.数据输入;

2.特征嵌入;

3.生成伪标签;

4.弱监督语义分割;

5.语义细化。

       值得注意的是,不同方法对上述构建要素的选择和应用顺序可能略有不同。只有基于伪三维标签的方法需要生成伪标签(步骤 3),基于三维标签的有限方法与基于二维标签的方法的区别在于,后者充分利用了二维信息,通常不需要专门设计的特征嵌入(步骤 2)等。

        图 2 描述了三维语义分割方法的总体框架轮廓,总结了三类方法所采用的不同算法步骤,有助于在后续章节中进一步探讨具体方法。此外,图 3 显示了所有五个步骤的组成部分和方法概要。每个步骤对应一个章节,每个步骤可使用的方法被进一步分类,属于同一类别的多个方法被虚线框包围。从图中可以看出,近年来已经探索了大量可能的算法设计空间。此外,表 1 总结了现有方法的框架,即每一步所选择的策略。这些方法分为三类,以对比不同的输入数据(第 1 步)、特征嵌入网络(第 2 步)、生成伪标签的方法(第 3 步)和语义细化方法(第 4 步),需要注意的是,语义分割步骤(第 4 步)复杂多样,不易用表格概括。

2.1 Data input

        本节将介绍弱监督三维点云语义分割任务常用的输入类型,以及如何注释、扩展和预处理原始点云。请注意,我们关注的是直接输入网络的数据。

        现有方法的输入包括两种情况:第一种方法选择点云和相关图像一起作为输入[13, 15],而第二种方法只需要三维点云。常见的三维数据是带有时间信息的连续帧点云和一般非连续帧点云。

       在使用连续帧点云的方法中,Mei 等人[16] 提取了连续帧的动态点云,并根据已知的手动注释数据将其中的相同对象联系起来,提供可用作额外输入的成对约束条件。Shi 等人[35]将每个点云序列分离成许多由点云帧组成的子序列作为输入。Liu 等人[40] 采用启发式方法将每个序列分割成一组相关的组件。显然,上述数据只适用于特定的环境,缺乏鲁棒性。相反,非连续帧数据应用广泛,因此是最常见的输入选择。

        为了降低标注成本,并从非连续帧点云数据中获取更多可用信息,研究人员探索了三种处理原始点云的策略。

       首先,就目前存在的标注形式而言,最常用的是点级标注,这需要对每个像素进行标注,非常麻烦且耗时。然而,最经济的场景级标注面临着多种使用挑战。为了平衡两种形式的优缺点,Wei 等人[25]提出了一种新的场景级标注方法,场景级标签点云的球形子样本。Tao 等人[32]选择使用语义注释的片段集合作为场景级标签。选择使用新的标注策略可能会减少所需的时间和精力,但最终结果的评判标准难以统一。

         其次,为了增加可用样本的数量,现有算法提出了数据增强,即通过对原始数据施加随机噪声以及进行随机旋转、缩放和抖动来扩展训练样本[17, 23, 34]。此外,为了更灵活地应用数据增强并为大规模点云生成更多样化的变换,Li 等人[34]提出了一种可学习的动态点云增强器。它利用在原始数据中添加特定的噪声来生成不同的锚点和正负示例,并提取它们之间的特定关系作为后续约束。Zhang 等人[19]设计了一种点扰动方法,其中包含场景变换、坐标位移和属性关注。

           Wu 等人[37] 设计了区域自适应,其中RAD 模块通过自适应参数变换生成变形样本,LAP 模块通过对点坐标和属性进行自适应参数变换生成扰动样本。在他们后来的工作中,Wuetal[42]选择了多种现成的增强方法和按点插值的方法来生成更强的增强数据。

         例如,受二维研究[44-48]和其他研究的启发,Weietal.[21]将原始点云与随机点采样下的阴影点云相结合,利用云间语义进行监督。Liuetal.[24]引入了一种区域屏蔽(Region-wise Masking)策略,利用增强数据获取屏蔽点云,其中包含有意义的上下文。

         最后,对点云进行预处理可以更好地提取数据特征。Wangetal[12,14]基于特定视角捕捉截断点云,从而获得相应的二维地面真实分割图。Wang和Yao[33]基于特征约束设计了一种新的弱标签初始化框架。该框架利用manifold学习优化初始弱标注的选择,以保留更重要的语义数据,并将提取的特征投射到更合适的特征空间进行组合。受超级图[49]、Cheng etal.[28]和 Luetal.[41]决定对原始点云进行排序以生成超级点,并构建超级点图以减少长距离依赖性并平衡不同类别之间的点数。

2.2 Feature embedding

        当连续帧点云和非连续帧点云被用作输入时,特征嵌入的目标是确定每个特征及其相关表示,本节研究了现有方法在选择特征嵌入网络时的不同策略。请注意,本节仅研究了使用连续帧点云和非连续帧点云作为输入的情况。

          当输入数据为非连续帧点云时,研究者需要针对不同情况选择合适的嵌入网络来提取特征关系。一般来说,为了获得嵌入点云特征,Xuand Lee[17] 和 Suetal[20]同样选择了 DGCNN 作为编码器网络,它可以更好地提取点云的局部特征,并且可以方便地集成到现有网络中。Weietal[25]将 ResNet[50]block 与灵活的 KPConv 分类网络[6]相结合;为了进行公平比较,Yangetal[21]在多次试验中选择了与最先进方法相同的骨干网。

         考虑到大尺度点云的数据量巨大,且近邻点之间存在显著的本地语义相似性,研究人员应寻求有效且不影响特征的嵌入方法。因此,Zhang 等人[19]选择 RandLA-Net 作为主干,Huetal 等人[7]也选择其编码器作为安全特征提取器。

           为了在输入数据为连续帧点云的情况下有效地识别特征,Shietal[35]选择了一种用于时空感知的 42 层 Minkowski-UNet[52]。

2.3 Generate pseudo labels

      步骤 3 通常是基于伪三维标签的方法的一个单独步骤,主要包括基于伪标签的完全监督方法和基于伪标签的自我训练方法。第一种方法旨在为无标签点生成预测标签,并利用已知信息和伪标签一起执行完全监督训练;第二种方法基于完整的分割网络预测和更新伪标签,从而完成网络训练。

      与基于伪标签的完全监督方法一样,优化伪注释的预测精度是提高最终分割性能的关键。

      受类激活图(CAM)[8] 的启发,Weietal.[25] 提出了利用点类激活图多路径区域挖掘模块生成伪标签的策略。他们首先将提取的点云特征输入到集中于不同网络属性的四条路径中,然后通过合并得到的 PCAM 收集各种判别特征,最后经过最近上采样生成更精确的点级伪标签。[该网络由多个分组操作层级组成,其中包含一个图卷积网络,该网络通过将未标记的片段分组为相邻和相关的标记片段来提供伪标签。然而,使用简单的伪标签生成策略很难保证高质量的分割结果。Shietal [35]提出了一种两阶段方法来提高模型的性能。第一阶段通过时序匹配获取大量高质量的伪标签,并利用它们来训练初始模型;第二阶段利用初始模型来提取特征,并结合时序匹配和空间图传播来更新伪标签。Luetal[41]设计了一种高级加权超图卷积网络(WHCN),该网络由超边注意模块和光谱超图卷积模块组成。

         为了从中提取更重要的信息,这类方法提出了四种措施来提高模型的准确性。

         Yaoetal等人[26]将伪标签技术与PointNet结合起来,提出了一种在分类网络训练和标签传播之间进行交替的过程,以生成最终语义标签。Cheng 等人[28]提出的 SSPCNet 由动态标签传播策略和耦合注意力机制组成。前者通过扩展已标注超级点的信息来生成伪标签,以添加具有高语义相似性的相邻超级点,然后采用丢弃策略来过滤高质量的伪标签;后者则交替对已标注超级点和伪标签超级点执行注意机制,以提取二者更具区分性的上下文特征。Liuetal[31]提出的OTOC方法对原始点云进行超级VOXEL分割,并通过随机标注每个对象的点来生成初始伪标签。另一种方法是基于三维UNet[53]预测语义标签,并设计用于相似性学习的关联网络,然后结合两个网络的特征构建超级体素图,用于标签传播。为了简化这一过程,刘[38]提出了一种将自我训练和主动学习结合起来的方法,即只需训练一个分割网络,并将标签传播到上观测点。

         其次,先验知识有助于模型训练,也有助于标注推导。Zhang 等人[27]提出了一种基于 RandLA-Net 的自监督点云色彩化知识转移方法。Kong 等人[36] 认为 LiDAR 扫描包含丰富的空间前验,并提出了 LaserMix 方法,用于合并来自不同 LiDAR 激光束的扫描。

            COARSE3D[39]是一种利用对比学习技术从特征中获取高维语义嵌入并将其聚类到原型记忆库中的方法,而Liuetal[40]则将预分割与对比原型学习相结合,以获得更具区分度的嵌入空间。

            最后,正则化策略可以很好地约束网络训练。Wang 和 Yao[29]开发了基于 KPConv 的两阶段网络,第一阶段包括使用已知标注信息训练初始模型,并使用该模型生成第一个伪标注;第二阶段将已知标注和伪标注训练合并为混合模型,并在模型收敛时更新伪标注。后来[30],他们对这一工作提出了一些改进措施,以提高模型的效率,包括加入熵正则化、当前和整合预测的一致性约束以及在线伪标签策略。[由于伪标签噪声会影响分割精度,Wuetal.[42] 利用预测置信度和不确定性来选择最可靠的伪标签。

2.4 Semantic segmentation

          这些分割策略是所有方法的关键组成部分,也是框架部署中最重要的部分。本节将探讨三种不同方法所选择的分段策略。          

        第一种是基于标签的两种方法。这些方法采用投影技术,将图像和三维数据融合在一起,设计自建网络。Wangetal 等人[12] 结合 K-NN 动态图形卷积,提出了基于图形的金字塔特征网络(Pyramid Feature Network)。其目的是隐式推断截断点云的全局和局部特征,从而提高二维监督的性能。在此基础上,他们跟进文献[14],提出了能够输出点云可见性的 OBSNet 解码器,从而优化了原始框架。Yoon[15]选择 ResNet38 [54] 和 PintNetþþ 作为分类器,提取图像和点云的特征,并利用 CAM 生成预测结果。

        其次,对于有限的基于三维标签的方法,有些分割是基于现有网络的,例如,Liu 等人[24]选择了权重共享三维UNet 以更好地执行特征一致性,而另一些则使用自创网络以获得更高效的结果。在发现不完全监督学习梯度可以通过完全监督采样来近似估计之后,XuandLee[17]引入了具有软最大交叉熵损失的严格监督分割网络。Weietal 等人[18]基于 KPConv 引入了跨样本和样本内特征再分配模块,实现了在链接样本之间和原始样本内部的监督式传播。受自我超视学习的启发,Zhang 等人[19]提出了基于 RandLA-Net 的扰动式自我蒸馏和上下文感知模块。Huetal等人[7]提出了一种简单的语义查询网络(Semantic QueryNetwork),该网络收集了尽可能多的重要语义特征,用于随机点定位的弱监督训练。 为了解决难以识别局部几何结构语义类内部子类的问题,Suetal等人[20]开发了一种多参数语义查询网络(Multi-properties Semantic QueryNetwork)。[Yangetal.[21]通过整合Transfor mer模型[55]和匹配点云,将该问题转化为多个实例学习挑战,从而更有效地获取云内和云间信息。Cheng等人[22]提出了一种新的采样策略,并将其加入到RandLA-Net中,通过参数共享对其进行训练。Leeetal 等人[23]提出,存在性不确定性消除技术可以在弱监督信息的情况下生成高质量的特征表征,并在此基础上引入了基于图形信息增益的注意力网络 GaIA。

       最后,大多数基于伪标签的全监督方法,如 MPRM [25]、SegGroup [32] 和 WHCN [41],都选择 KPConv 作为最终的分割网络;而对于基于伪标签的自训练方法,其分割策略就是标签预测方法。

2.5 Semantic refinement 

         除了最常见的分割约束外,现有的弱监督三维点云语义分割方法还采用了五种优化策略:二维三维联合优化、一致性约束、类内约束、伪标签约束和对比度约束。

          为了更好地进行 2D-3D 联合优化,研究人员充分结合并利用 2D 和 3D 特征来完善模型训练。Wangetal.Wangetal[13]则在点云空间中扩散二维标签,并用三维监督对其进行监督。Kweon和Yoon[15]认为二维和三维数据的信息是互补的;因此,他们基于两个维度的峰值监督,利用二维预测来增强三维语义感知,并用三维特征来训练图像分类器。

          一致性约束经常被用来提高模型精度,它可以有效地考虑不同网络分支与各种输入数据的一致性,从而探索更重要的反信息。Meietal[16]使用手动标注的对象类别和带有配对约束的监督数据训练了基于 CNN 的分类器。Xu和Lee[17]提出了一系列新的限制条件,包括用于一致性约束的暹罗分支、用于预测无标签点信息的精确监督分支以及用于空间和颜色嵌入约束的平滑分支。[Yangetal.[21]将多实例限制与一致性约束相结合,并取得了成功。Wuetal.[37]提出了一种基于 KPConv 的双浸润变换模型,利用生成的扰动和变形样本来增强三维点云的局部和结构一致性约束,从而提高分割性能。Liuetal[24]利用不同增强数据和屏蔽数据之间的一致性约束来理解复杂的场景背景。Wuetal.[42]设计了一个分离和一致性模块,以可靠和清晰的伪标签应用一致性约束,并设计了一个混合增强模块,进一步为可靠点执行一致性约束。

            类内约束使模型能够平衡每个标签类的原型多样性和可分性,从而获得更准确的子类结果。Suetal[20]选择添加子类平均约束和原型多样性约束来鼓励多原型学习。

         与分割约束类似,基于伪三维标签的方法使用伪标签作为预测来优化分割网络。Zhang等人[27]利用自监督学习和标签传播对网络进行了限制和优化;Cheng等人[28]在网络中添加了伪标签和原始标签。[作为一种混合约束,Kongetal[36]将伪标签与弱监督信息合并。Liuetal.[40]提出了多重标签约束,并将其与多重示例学习相结合,用于监督训练。

        最后,对比约束也是一种有效的技术,它可以了解多个数据的对比特征,从而提高模型效率。

  • 25
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

木木要早睡

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值