[论文翻译]CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D Point Cloud Understanding-CSDN博客

本文链接：https://blog.csdn.net/m0_70686290/article/details/124664331

CrossPoint是一种自监督跨模态对比学习方法，用于3D点云理解。它通过最大化2D渲染图像和增强3D点云的一致性，学习可转换的点云表示。这种方法结合了内模态实例判别和跨模态实例判别，以增强3D-2D对应，提高了在3D对象分类和分割等任务上的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文地址：CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D Point Cloud Understanding

Abstract

点云结构不规则，对于不同任务(如三维目标分类、分割和检测)的大型点云数据，人工标注往往是非常困难的。自我监督不需要任何手工标注，是解决这个问题的好方法。受人眼能够从2D图像理解3D世界的启发，我们提出CrossPoint，一种跨模态的对比学习方法来学习可转换的3D点云表示。它能在不变空间中(invariant space)，最大化2D-3D的一致性，同时支持点云模式中的置换不变性(invariance to transformations)，实现物体的3D- 2D对应。我们即训练了内模式的特征提取，也训练了对应的跨模式的特征提取，因此，以自监督的方式从3D点云和2D图像形态中集成丰富的学习信号。实验结果表明，在包括3D对象分类和分割在内的多种下游任务上，我们的方法比以往的无监督学习方法具有更好的性能。此外，消融研究验证了我们的方法对于更好地理解点云的有效性。

1. Introduction

3D视觉在自动驾驶、混合现实和机器人等应用中至关重要，由于其理解人类世界的能力而引起了广泛的关注。有鉴于此，近年来在三维视觉研究问题上有大量的工作，如物体分类[42,43,60]，检测[36]和分割[43,54,60]，点云是最常用的三维数据表示方法。然而，深度学习的成功至关重要地依赖于大规模的人工数据。尽管三维传感技术(如激光雷达)的进步促进了三维点云样本的广泛采集，但由于点云的结构不规则，手动注释这种大规模的三维点云数据集是非常困难的(-问题-)。自监督学习是解决这一问题的主要方法之一，已被证明在2D域中有效[5,7,15,38]。一些工作已经探索了点云上的自监督表示学习，主要基于生成模型[1，62]、重构[51，58]和其他预文本任务[40]。此外，随着对比学习在图像[7,15,20,37]和视频[22,44,59]理解方面的成功发展，最近的工作也研究了用于点云理解的自我监督对比学习[23,49,64,73]的方法。然而，现有的基于对比学习的点云理解方法仅依赖于对三维点云的增强施加不变性(imposing invariance to augmentations of 3D point clouds)。像跨模式学习(cross-modal learning)这样从不同形式的学习，在自我监督学习中产生了实质性的效果。视觉+语言[10，45，50]和视频+音频[3，38，39]是多模式学习的一些值得注意的组合。在诸如物体检测[26]、少样本图像分类[2，65]和视觉问答[24，61]等各种2D视觉任务中采用了多模式设置。受多模态学习进展的启发，我们提出了CrossPoint，一种简单而有效的用于三维点云理解的跨模态对比学习方法。

我们工作的目标是捕捉3D对象和2D图像之间的对应关系，以学习可转移的点云表示(learn transferable point cloud representations.)。如图1所示，我们将增强后的点云和相应的渲染后的二维图像紧密地嵌入到特征空间中。在现实世界中，人类善于利用从二维图像中学到的视觉概念来理解三维世界。例如，如果一个人通过图像观察这个物体,他可以很容易地识别一个物体，认知科学家认为，3D-2D通信是儿童视觉学习过程的一部分[9,48]。同样，在机器人和自动驾驶等真实世界应用中，模型能够感知这种3D- 2d通信将极大地促进对3D世界的有效理解。特别是，我们的方法遵循一个联合目标，即在特征空间中紧密嵌入同一点云的增强版本，同时保持它们与原始3D点云渲染的2D图像之间的3D-2D对应关系。

联合的内模态和跨模态学习目标使模型获得以下可取有属性:
(a)关联点云和图像模态中出现的组成模式，例如，物体的细粒度部分级属性;(b)通过增加不变性获得点云的空间和语义属性知识;©将重定向后的二维图像特征作为质心编码到增强的点云特征，从而促进3D-2D对应转换。此外，像SimCLR[7]一样，CrossPoint的负采样不而要内存(memory bank)。丰富的增强和正例样本的形成，尽管需要有记忆库，也已被证明能促进对比学习[25,77]。我们假设，在模态内设置和跨情态对应中使用的转换提供了足够的特征增强。具体地说，渲染的2D图像特征对形成更好的表征学习起到了硬肯定的作用。

我们用多个下游任务验证了该方法的泛化能力。具体来说，我们在合成[63]和真实世界[57]对象数据集中执行形状分类。尽管在一个合成目标数据集[6]上进行了预训练，但在非分布数据中CrossPoint的性能证明了联合学习目标的重要性。此外，消融研究还证明了模式内目标和跨模式目标在成分上的贡献。我们还采用了多个广泛使用的点云网络作为我们的特征提取方法，从而证明了我们方法的通用性。

我们的方法的主要贡献可以概括如下：

结果表明，利用自监督对比学习在特征空间中对目标进行简单的3D-2D对应有助于有效地理解三维点云。
我们提出了一种新颖的端到端自监督学习目标，该目标封装了内模态和跨模态损失函数。它鼓励二维图像特征嵌入到相应的三维点云原型附近，从而避免偏向于特定的增强。
我们在三个下游任务上广泛评估了我们提出的方法，即:对象分类、样本头学习和在不同范围的合成和真实数据集上的部分分割，其中CrossPoint优于以前的无监督学习方法。
此外，我们对CIFAR-FS数据集进行少样本图像分类，以证明从交叉点微调预训练的图像骨干优于标准基线。

2. Related Work

关于点云的表示学习。 与其他形式(例如图像)相比，学习点云表示是一项具有挑战性的任务。这是因为每个点的结构是不规则的，而且在处理每个点时需要有置换不变性。最近由PointNet[42]开创的一系列工作提出了直接作用于3D点云而不进行任何预处理的方法的体系结构。

点云上的自监督学习。 已经探索了几种在点云上执行自监督表示学习的方法。最初的工作利用生成性对抗性网络[1，17，62]和自动编码器[12，18，29，70，76]的生成性建模，其目的是用不同的架构设计重建给定的输入点云。最近的系列著作[19，40，46，51，53，58，69]介绍了各种pretext self-supervision tasks，目的是学习丰富的语义点属性，最终导致高水平的判别性知识。例如Wang et al.[58]训练一个编码器-解码器模型来完成被遮挡的点云，Poursaeed et al.[40]将点云旋转角度的估计定义为pretext task。然而，在这项工作中，我们利用对比学习[16]来学习特征空间中的不变映射。受图像理解的自我监督对比学习的成功启发，许多著作[11,23,32,49,64,72,73]分析了点云理解的这种场景。PointContrast[64]对给定点云的两个变换后的视图执行点级别的不变映射。类似地，Liu等人[32]也分析了一种点级不变映射，通过引入点识别损失，使特征与属于形状表面的点一致，而与随机采样的噪声点不一致。STRL[23]是BYOL[15]对3D点云的直接扩展，通过在线网络和目标网络的交互，无监督地学习表示。与现有的利用对比学习的研究形成对比，我们引入了一种辅助的跨模态对比目标，它能捕获3D-2D对应，从而产生更好的表示能力。

Cross-Modal Learning. 从不同模态中学习往往能提供丰富的学习信号，从这些信号中可以很容易地处理给定上下文的语义信息。最近的研究[3,10,38,45,50,55]指出，跨模式环境下的预训练产生了可转移的表征，这些表征随后可用于各种下游任务。Zhang等人[73]提出了一种点云和体素的联合学习方法。然而，我们认为2D图像产生的正样本比3D体素更难分辨，因此提供了更丰富的学习信号。此外，[66]通过滤波器膨胀将预训练的二维图像模型转换为点云模型，而[13]通过将图像特征中观察到的对应关系转换为点云特征来处理点云配准任务。我们的工作与现有的工作[34]密切相关，它使用一个固定的图像特征提取器来进行像素到点的(知识)转移，然而，我们新的联合学习目标在不变空间中实现了内模态和跨模态的全局特征对应，这对更好地识别对象至关重要。

3. Proposed Method

在这项工作中我们将融合内模态和跨模态对比学习目标来改进无监督三维点云表示学习。本节首先介绍所提方法的网络架构细节(第3.1节)。然后，我们将描述在模内(第3.2节)和跨模态(第3.3节)设置中形成的对比学习损失函数。最后，我们介绍我们的整体培训目标(第3.4节)。所提方法的概述如图2所示。此后，基于点云的任务取得了许多进展，如三维对象分类[31,33,43,54,60,67,75]、三维对象检测[31,36,41,74]和三维点云合成[1,62]。此外，还提出了几种数据增强策略[8,27,30]，以增强模型的表示能力，而不考虑使用的骨干。然而，这种表示学习方法的性能取决于标注的点云数据，而标注的点云数据是很难获得的。Sharma等人[52]介绍了cTree，其中点云表示可以在标签有效的场景中学习(例如少样本学习)。相反，我们的方法专注于学习可转移的点云表示，而不利用任何注释，然后可以用于各种下游任务，如分类和分割。

3.1 Preliminaries

假设我们得到一个数据集,
$\mathcal{D}=\left\{\left(\mathbf{P}_{i}, \mathbf{I}_{i}\right)\right\}_{i=1}^{|\mathcal{D}|}$
其中 $\mathbf{P}_{i} \in \mathbb{R}^{N \times 3}$ ， $\mathbf{I}_{i} \in \mathbb{R}^{H \times W \times 3}$ , $\mathbf{I}_{i}$ 是3D点云 $\mathbf{P}_{i}$ 的二维渲染图像。请注意， $\mathbf{I}_{i}$ 是通过从随机摄像机视点捕捉 $\mathbf{P}_{i}$ [6]来获得的。我们的目标是以自我监督的方式训练点云特征提取器 $f_{\theta_{\mathbf{P}}}(.)$ ，使其能够有效地转移到下游任务。为此，我们分别对点云和图像使用图像特征提取器 $f_{\theta_{\mathbf{P}}}(.)$ ，多层感知器(MLP)投影头(MLP projection heads) $g_{\phi_{\mathbf{P}}}(.)$ 和 $g_{\phi_{\mathbf{I}}}(.)$ 。

3.2 Intra-Modal Instance Discrimination

受图像模态对比前训练成功的启发[7,20,37]，我们提出了一种模内实例判别(Intra-Modal Instance Discrimination, IMID)，通过执行自监督对比学习来增强一组点云几何变换 $\mathbf{T}$ 的不变性。给出一个输入的三维点云 $\mathbf{P}_{i}$