论文阅读 Masked Scene Contrast: A Scalable Framework for Unsupervised 3D Representation Learning

最新推荐文章于 2024-06-08 09:49:29 发布

一路繁华的^夏

最新推荐文章于 2024-06-08 09:49:29 发布

阅读量234

点赞数

文章标签：论文阅读 3d 人工智能深度学习

本文链接：https://blog.csdn.net/canmengw/article/details/131802653

版权

这篇论文的主要内容是针对3D场景的无监督表示学习。文章首先对之前的一项开创性工作——PointContrast进行了分析。PointContrast利用原始RGB-D帧（深度信息）的对比学习进行3D表示的无监督学习，并在各种下游任务中证明了其有效性。
然而，大规模的3D无监督学习的发展还存在两个主要障碍：
- 1) 将RGB-D帧作为对比视图进行匹配的效率低下
- 2) 在前人工作中提到的模式崩溃现象。（模型学习时，所有的生成器的参数都收敛到相同的值，导致生成的样本几乎相同，表现出较差的多样性。）
为了解决这两个问题，作者首先提出了一个高效且有效的对比学习框架，该框架直接在场景级点云上生成对比视图，通过精心设计的数据增强流程和实际的视图混合策略。
其次，作者在对比学习框架上引入了重构学习，设计了对比交叉蒙版，目标是重构点的颜色和曲面法线。这种方法被称为Masked Scene Contrast (MSC)。
MSC框架能更高效有效地提取全面的3D表示。它将预训练过程加速至少3倍，同时与之前的工作相比，其性能并未有所折损。此外，MSC还能够在多个数据集上进行大规模3D预训练，从而进一步提升性能，并在几个下游任务上实现了最先进的微调结果，例如在ScanNet语义分割验证集上达到75.5%的mIoU
Introduction
尽管2D的无监督视觉表示学习取得了令人瞩目的成功，但在3D领域的研究还相对较少。现代3D场景理解算法主要关注的是监督学习，模型直接从目标数据集和任务开始训练。但无疑，良好的预训练视觉表示可以显著提升这些算法的性能，因此当前对它们的需求很迫切。
最近的研究PointContrast在3D无监督学习中进行了初步的探索。但由于它只局限于原始RGB-D帧，并采用了效率不高的学习模式，使得它无法扩展到大规模的无监督学习。为解决这一重要且不可避免的挑战，作者们专注于构建一个可扩展的大规模3D无监督学习框架。
另一个技术难题是通过将RGB-D帧作为对比视图进行匹配引入的学习策略效率低下。PointContrast开启了在真实室内场景数据集上进行预训练的大门，并提出了帧匹配来生成具有自然相机视图的对比视图。然而，由于匹配帧存在重复编码，导致了在批量训练和优化中场景的多样性受限，同时，并非所有的3D场景数据都包含原始的RGB-D帧，这导致了算法的部署失败。
为解决这个问题，作者们借鉴了SimCLR的成功经验，通过直接在场景级点云上应用一系列精心设计的数据增强方法来生成强烈的对比视图，从而消除了对原始RGB-D帧的依赖。结合了有效的混合查询视图的机制，他们的对比学习设计比使用原始数据的PointContrast加速了预训练过程4.4倍，并且仅使用点云数据就达到了优越的性能。这种卓越的设计也使得在像ScanNet和ArkitScenes这样的多个数据集上进行大规模的预训练成为可能。
另一个难点是在放大优化迭代次数时出现的模式崩溃现象。为了进一步解决无监督学习中的模式崩溃问题并扩大优化迭代次数，作者们借鉴了最近的掩码自编码器，构造了一个掩码点建模范式，其中提出了点颜色重建目标和曲面法线重建目标，分别用于恢复点云的掩码颜色和几何信息。他们通过设计精致的对比交叉掩码，将掩码点建模策略融入对比学习框架中，从而构建出一个可扩展的无监督3D表示学习框架，即Masked Scene Contrast (MSC)。
related work
3D表示学习：不像2D的情况，其中大规模无监督预训练已经成为了促进下游任务的常见选择，3D表示学习还不成熟，大多数工作仍直接在目标数据上从头开始训练。早期的3D表示学习工作简单地建立在单个对象上，而最近的工作开始在场景为中心的点云上进行训练。然而，尽管2D的场景为中心的表示学习已经被深入研究，但依赖于原始帧数据的3D场景的预训练仍然面临效率问题，并且难以扩大到更大规模的数据集。相比之下，我们探索直接在场景级别上学习，这显示了在处理场景数据方面的显著高效性，并首次为使用更大规模的点云进行预训练开启了可能性。
Pilot Study
提案设计是基于这个初步研究的结论
- 匹配RGB-D帧是否是个好选择？
  - 作为3D表示学习的开创性工作，PointContrast首次实现了使用匹配的原始RGB-D帧作为对比视图，在真实世界的室内场景中进行预训练。然而，这个框架有多个缺点可能会阻碍训练的可扩展性：
    - 冗余的帧编码：PointContrast采用的成对匹配策略允许一个帧被多次匹配。因此，一个帧可能在一步中被多次编码，增加了训练的冗余。
    - 学习效率低：在一次训练步骤中，帧匹配策略只允许框架处理单个场景的几个视图。因此，PointContrast在一步中能处理的信息量相当有限，一次训练周期的总时间也明显较高。
    - 依赖原始RGB-D帧：整个框架是基于RGB-D视频可用的假设构建的，但并非所有公开可用的点云数据集都适用。即使可用，RGBD帧的存储成本也明显高于重构的点云数据。
  - 因此，我们将探索直接在点云上进行预训练的可能性。
- 模式崩溃背后的启示是什么？
  - 模式崩溃，定义为所有特征都崩溃到一个向量的现象，仍然是伴随3D表示学习发展的未解决问题。为了缓解这个问题，PointContrast引入了已经被证明能稳定训练的InfoNCE损失，以替换最难对比损失。然而，当训练数据量和训练时间表长度增加时，模式崩溃的问题仍然可能出现。我们注意到，先前工作的负对余弦相似度平均值接近0，表明负样本大多数是容易的，因此对平凡解的惩罚很小。尽管InfoNCE损失通过改变优化目标减轻了这个问题，但我们认为，通过提高无监督预文本任务的难度，可以得到更理想的解决方案。
不同于以前的从室内场景中分解RGB-D帧的协议，我们的对比学习框架直接操作点云数据。给定一个点云 X = (P , C)，其中P ∈ Rn×3 表示点的空间特征（坐标），C ∈ Rn×3 表示点的光度特征（颜色），对比学习框架可以总结如下：
- 视图生成：对于给定的点云X，我们通过一系列的随机数据增强生成原始点云的查询视图Xr和关键视图Xk，这包括光度、空间和采样增强。
- 特征提取：用U-Net风格的背景编码点云特征Frand Fk为ˆFr和ˆFk。
- 点匹配：对比学习的正样本是在两个视图中空间位置接近的点对。对于属于查询视图的每一个点，我们计算到关键视图点的对应映射P = {(i, j)}n′。如果 (i, j) ∈ P，那么点 (pi, ci) 和点 (pj , cj ) 构成了跨越两个视图的一对。
- 损失计算：在两个视图的表示ˆFr 和ˆFk以及对应映射P上计算对比学习损失。一个编码的查询视图应该与它的关键视图相似。
Data augmentation
- SimCLR作为图像对比学习的开创性工作，揭示了精心策划的数据增强管道对于学习强大的表示是至关重要的。与监督学习不同，对比学习需要更强大的数据增强以防止平凡的解决方案。然而，在3D表示学习中，一个有效的数据增强配方仍然缺失。在之前的工作中，帧匹配方案简单地将随机旋转操作符应用于对比目标。
- 我们精心设计的随机数据增强管道包括光度增强、空间增强和采样增强。除此之外，我们还有随机旋转、翻转、缩放构成的空间增强，以及由随机裁剪和网格采样组成的采样增强。
View mixing
- 最近，Nekrasov等人提出了通过将两个场景混合为一个混合训练样本的3D理解模型的数据增强技术，可以显著抑制模型过拟合。受混合机制的启发，我们将混合的逻辑作为对比学习目标的一部分。对于一批配对视图，我们在特征提取过程之前随机混合查询视图，同时保持关键视图不变。这个简单的操作可以有效地增加背景的鲁棒性，提高点云表示的鲁棒性。
Contrastive target.
- 我们遵循PointContrast的对比目标设计，并将InfoNCE损失应用于匹配的点。给定由点匹配产生的对应映射P ={(i, j)}n'和在特征提取过程中嵌入的点表示ˆFr和ˆFk，对比损失是：
- 注意，S = {sij } ∈ Rn×n 是正样本和负样本之间的成对余弦相似度矩阵，而τ是缩放余弦相似度的温度因子。在实践中，我们将温度因子τ控制为0.4，与以前的工作一样。
Reconstructive Learning
大规模表示的绊脚石之一是模式崩溃，我们的解决方案是提高无监督预训练任务的难度。受到遮蔽图像建模[23,57]在2D表示中的成功启发，我们提出了遮蔽点建模，这可以自然地融入到我们的对比学习框架中。得益于这种设计，我们的框架可以充分利用对比视图中不重叠的区域，这是对比学习无法利用的。
对比交叉掩蔽。使我们的对比学习框架能够进行额外的构造学习的关键设计是对比交叉掩蔽。对于单个点云的查询视图和关键视图，我们通过它们在空间增强前的原始位置将并集点集分为非重叠的网格分区。给定一个从0到0.5的掩蔽率r，我们随机生成一对掩蔽Mr，Mk ∈ R1×nr,k，其中没有共享的掩蔽补丁。然后，我们按照SimMIM [57]的做法，通过将输入特征替换为可学习的掩蔽令牌向量t ∈ Rc，分别将这对掩蔽应用到两个视图中。因此，特征提取过程可以被重写为以下形式：
其中Tr,k ∈ Rnr ,nk ×c是将掩蔽令牌向量t扩展到适应特征维度的矩阵。
Reconstruction target.
- 点云的特征由两部分组成，决定几何结构的坐标和表示纹理特征的颜色。我们分别为这两组特征建立重建目标。点云纹理的重建很直接，我们用线性投影预测每个点的光度值。我们计算重建的颜色和原始颜色之间的均方误差（MSE）作为颜色重建损失：
- 其中n′r和n′k表示属于参考视图和关键视图的掩蔽点的数量，mi r和mi k分别表示Mr和Mk的第i个元素。点坐标在描述点云的几何结构中起着重要的作用，值得注意的是，直接重建掩蔽点的坐标是不合理的，因为掩蔽点只是从3D物体表面而不是连续表面本身采样的。重建点坐标会导致过拟合的表示。为了克服这个挑战，我们引入了surfel重建的概念。Surfel是离散拓扑文献[26]和基元渲染[36]中的表面元素或表面体素的缩写。对于每个掩蔽点，我们重建相应surfel的法向量，并计算估计值和surfel法向量之间的平均余弦相似性作为对比损失：
- 其中n′r和n′k表示属于参考视图和关键视图的掩蔽点的数量，mi r和mi k分别表示Mr和Mk的第i个元素。
Loss Function
我们的框架结合了对比目标、颜色重建目标和surfel重建，使无监督任务更具扩展性。总体损失函数是公式2、公式4和公式5的加权和，写成以下形式：
其中λc和λn是平衡三个损失组件的权重参数。我们经验上发现性能对权重参数的选择较为稳健，实际中我们设λc = λn = 1。
（
- 我觉得这篇主要贡献是两个部分：
  - 对比学习部分，作者提出了一个新的对比学习框架，该框架利用了随机生成的仿射变换和颜色扰动来产生正样本对，然后将这些样本对嵌入到一个共享的特征空间中。在该特征空间中，正样本对之间的距离被最小化，而负样本对之间的距离被最大化，从而使得模型能够学习到点云数据的语义特征。
  - 重建学习部分，为了解决大规模点云数据中存在的模式崩溃问题，作者进一步提出了一个基于遮蔽点建模的重建学习方法。具体来说，他们首先将输入的点云数据划分成不重叠的格子，然后在每个格子上随机生成遮蔽掩码。通过使用遮蔽掩码，模型需要预测遮蔽点的特征，并且可以通过预测的准确性来优化模型的参数。在这个过程中，作者还引入了一种新的surfel重建方法来预测遮蔽点的几何结构。
  - ）
experiment
根据设计，从 30% 到 40% 的掩蔽率效果很好，较高的掩蔽率会对对比学习产生负面影响。y 轴代表 ScanNet 语义分割验证 mIoU (%)

一路繁华的^夏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文阅读 Masked Scene Contrast: A Scalable Framework for Unsupervised 3D Representation Learning

这篇论文的主要内容是针对3D场景的无监督表示学习。文章首先对之前的一项开创性工作——PointContrast进行了分析。PointContrast利用原始RGB-D帧（深度信息）的对比学习进行3D表示的无监督学习，并在各种下游任务中证明了其有效性。然而，大规模的3D无监督学习的发展还存在两个主要障碍： 1) 将RGB-D帧作为对比视图进行匹配的效率低下 2) 在前人工作中提到的模式崩溃现象。（模型学习时，所有的生成器的参数都收敛到相同的值，导致生成的样本几乎相同，表现出较差的多样性。）
复制链接

扫一扫