【ICCV】PointDC,基于深度聚类的无监督3D场景语义分割,FaceChain团队联合出品

论文:PointDC:Unsupervised Semantic Segmentation of 3D Point Clouds via Cross-modal Distillation and Super-Voxel Clustering,https://arxiv.org/abs/2304.08965

代码:

GitHub - SCUT-BIP-Lab/PointDC: [ICCV 2023] PointDC: Unsupervised Semantic Segmentation of 3D Point Clouds via Cross-modal Distillation and Super-Voxel Clustering

一、概览:

针对无监督3D场景的语义分割,提出一套基于深度聚类的自监督学习算法,可以大幅提升3D分割的效果(ScanNet-v2 (+18.4 mIoU)S3DIS (+11.5 mIoU))。

二、介绍:

基于3D点云的语义分割任务旨在识别一个3D点云中每个点所从属的语义概念,可以广泛应用于各种下游任务,如机器人导航、自动驾驶、具身智能等等。尽管现有的基于全监督范式的3D语义分割方法已经取得了不晓得进展,但是这些方法依然高度依赖于大规模数据集和3D语义标注。最令人感到棘手的是,三维点云的标注成本相比于图像和视频更加麻烦。例如,在ScanNet数据集中要标注一个3D场景需要大约22.3分钟【1】。

为了缓解对于这些数据标注的需求,也有一些工作尝试着从弱监督【2-4】的角度来解决问题,包括2D图像标注映射到3D、3D点云中部分点的稀疏标注等等。然而,很少有工作尝试去探索在不依靠任何标注下进行3D语义分割的任务。在这篇论文中,我们旨在探讨自监督学习在不依靠任何标注下进行3D语义分割的可行性,示意图如下图所示。

图1 无监督3D场景语义分割任务介绍

在开始做之前,一种很自然的想法就是看看基于2D图像的无监督语义分割方法是否有效。IIC【5】和PiCIE【6】是两个经典的基于自监督学习和聚类学习(Learning-by-Clustering)的无监督语义分割框架。通过设计基于数据增强的不变性或等变性对比学习损失,可以让网络学习到丰富的视觉表征;借助聚类过程可以提取出语义空间的有效特征,借助像素级的聚类来挖掘语义概念实现语义分割。STEGO【7】则通过大规模视觉预训练模型的特征来引导聚类过程实现更鲁棒的无监督语义分割。然而,在我们尝试着将这些方法拓展到3D场景时,发现这些方法的性能非常有限,其聚类结果不是很理想。那么,究竟是什么因素导致了这个问题?

我们可以简单地将问题总结为以下两点:

  1. 聚类过程中的歧义。自监督学习和深度聚类这些方法可行的大前提是我们有足够丰富的大规模数据集。在2D场景,图像数据的采集相对容易,且人类收集的过程保证了这些数据是充分有意义的。然而3D数据的收集受限于其采集成本,较难采集到与2D图像相当规模的数据集,且多样性也很有限。这也导致聚类算法无法在足够丰富的3D视觉特征聚类,无法聚类出有效的3D场景语义特征。
  2. 点云自身的不规则性。在深度聚类的过程,我们需要在大规模3D点云数据集进行精细到点级别的聚类。在将整个数据集的点云特征聚类的过程中,点云自身的不规则结构,以及不同区域稀疏程度不同的特性,导致常用的基于K-Means等等的深度聚类方法无法有效地获取有用地特征。因为K-Means是基于欧式距离的均衡度量构建的,但却无法有效地处理点云这种非欧式结构数据。例如,如果一块区域非常稠密,那么聚类的中心会更接近稠密区域,而忽视其他稀疏区域。

基于以上两点,我们提出了一套完全无监督的3D点云语义分割方法,PointDC。其包含两个核心组件:跨模态蒸馏(Cross-Modal Distillation,CMD和超体素聚类Super-Voxel Clustering,SVC。PointDC的

图2 PointDC示意图,包含两个阶段:跨模态蒸馏和超体素聚类

  1. 针对第一个问题(聚类过程中的歧义),我们提出跨模态蒸馏(CMD来借助2D视觉预训练大模型的特征来缓解先验信息的确实。具体来说,我们将点云对应的多视角图像分别送入自监督预训练好的Transformer大模型(如DINO等)提取多视图特征。随后利用单应性投影构建逆投影模块,将多视图的特征投影到3D空间,并通过全局池化进行聚合得到鲁棒的3D特征。
  2. 针对第二个问题(点云自身的不规则形),我们提出超体素池化(SVC,将原始的点云转换成3D超体素再进行自监督学习和深度聚类训练。在每个局部超体素中对其包含的3D点特征进行聚合,得到一个置换不变的局部表征。再将这些超体素特征在整个数据集层面进行聚类来挖掘出语义概念,转换成伪标签再进行自训练(Self-train)。在自训练的过程中,会像其他对比学习方法一样,引入随机的数据增强,并约束其针对伪标签具有不变性和等变性。

三、实验:

我们分别在ScanNet-v2的验证集和测试集、以及S3DIS上进行了实验验证,均取得了大幅超越此前自监督算法的性能,如下:

表1 在ScanNet-v2验证集上的实验结果

表2 在ScanNet-v2测试集上的实验结果

表3 在S3DIS(Area 5)上的实验结果

表4 各个模块的消融实验结果

图3 ScanNet-v2验证集上的可视化结果

四、参考:

  1. Angela Dai, Angel X Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, and Matthias Nießner. Scannet: Richly-annotated 3d reconstructions of indoor scenes. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 5828–5839, 2017.
  2. Haiyan Wang, Xuejian Rong, Liang Yang, Jinglun Feng, Jizhong Xiao, and Yingli Tian. Weakly supervised semantic segmentation in 3d graph-structured point clouds of wild scenes. arXiv preprint arXiv:2004.12498, 2020.
  3. Zhengzhe Liu, Xiaojuan Qi, and Chi-Wing Fu. One thing one click: A self-training approach for weakly supervised 3d semantic segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 1726–1736, 2021.
  4. Yushuang Wu, Zizheng Yan, Shengcai Cai, Guanbin Li, Yizhou Yu, Xiaoguang Han, and Shuguang Cui. Pointmatch: a consistency training framework for weakly supervised semantic segmentation of 3d point clouds. arXiv preprint arXiv:2202.10705, 2022.
  5. Xu Ji, Joao F Henriques, and Andrea Vedaldi. Invariant information clustering for unsupervised image classification and segmentation. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 9865–9874, 2019.
  6. Jang Hyun Cho, Utkarsh Mall, Kavita Bala, and Bharath Hariharan. Picie: Unsupervised semantic segmentation using invariance and equivariance in clustering. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 16794–16804, 2021.
  7. Hamilton M, Zhang Z, Hariharan B, et al. Unsupervised semantic segmentation by distilling feature correspondences[J]. arXiv preprint arXiv:2203.08414, 2022.

  • 16
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
深度学习监督图像分割是近年来图像分割领域的研究热点之一。与有监督学习方法相比,无监督学习方法不需要标注的数据,因此在实际应用中更加灵活和高效。下面是一些深度学习监督图像分割的综述: 1. “Deep learning for unsupervised image segmentation” (CVPR 2017) 这篇论文提出了一个基于深度学习的无监督图像分割方法。该方法基于自编码器框架,利用重构误差和图像的局部统计信息来进行分割。实验结果表明,该方法在多个数据集上取得了优秀的性能。 2. “Unsupervised deep learning for optical flow estimation and image segmentation”(CVPR 2018) 该论文提出了一种基于深度学习的无监督图像分割方法。该方法结合了光流估计和图像分割任务,利用无监督学习方法学习光流估计和图像分割网络。实验证明,该方法在多个数据集上取得了优秀的性能。 3. “Unsupervised deep image segmentation with clustered discriminative non-negative matrix factorization”(ICCV 2019) 该论文提出了一种基于聚类分析和判别因子非负矩阵分解的无监督图像分割方法。该方法通过学习图像的非负表示来进行分割,同时采用聚类分析来提高分割的准确性。实验证明,该方法在多个数据集上取得了优秀的性能。 4. “Unsupervised deep learning for image segmentation using convolutional autoencoders”(IEEE Access 2020) 该论文提出了一种基于卷积自编码器的无监督图像分割方法。该方法利用卷积自编码器来学习图像的表示,并采用聚类分析来进行分割。实验证明,该方法在多个数据集上取得了优秀的性能。 总的来说,深度学习监督图像分割是一个重要的研究方向,未来还有很大的发展空间。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI记忆

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值