[论文搬运]Self-Supervised Point Cloud Representation Learning with Occlusion Auto-Encoder

最新推荐文章于 2023-04-28 00:20:31 发布

「已注销」

最新推荐文章于 2023-04-28 00:20:31 发布

阅读量355

点赞数

文章标签：深度学习计算机视觉

本文链接：https://blog.csdn.net/njcithy/article/details/124632695

版权

Self-Supervised Point Cloud Representation Learning with Occlusion Auto-Encoder

1. Introduction

本文研究不需要人工标注监督，学习点云的表示法。二维三维图像已经研究多年，有许多共同的实践，如基于自动编码的框架和基于自重构的监督。NLP和2D计算机视觉领域的最新发展也推动了3D表示学习的几个改进，如PCT[14]、Point-Bert[64]和STRL[20]。然而，2D和3D域之间的不同数据特性，让许多二维方法无法改进为三维方法，例如有序的二维网格与无序的三维点的区别。

主要挑战之一是了解全局结构和局部几何之间的分层关系。在3D场景中，由于3D点的离散性质，这比学习2D图像更困难。在以往的大多数方法中，三维自编码器通常依赖于自重建作为监督，关注全局结构和局部形状。然而，简单的基于自重构的框架通常不能明确区分局部形状和全局结构。因此，它们都仅通过形状匹配约束(例如倒角距离)作为一个整体来显示，(--以往的不足--)而揭示3D点云中局部到全局等级的更详细的自我监督只进行了讨论

基于模板的2D自动编码器的最新改进[17]已经被证明是通过基于可见局部块的全局图像信息的推理来有效地学习图像表征。这为建立地方信息与全球信息的自我监督提供了新的视角。由于点云的本质是离散的，直接使用2D基于掩模自动编码器(mask-based auto-encoder)学习3D困难。我们提出了一种新的基于变压器的自监督学习框架3D-OAE，该框架具有遮挡自动编码器(Occlusion Auto-Encoder)。如图1所示，我们将未标记的点云分割成局部点片，并将它们集中到相应的种子点。在此之后，我们遮挡了很大一部分面片，但仍然保留种子点，并从种子点和可见面片中学习恢复被遮挡的块。种子点作为全局形状的提示来指导全局形状的生成，模型将被迫专注于学习局部几何细节。具体地说，我们设计了一个编码器来只学习可见块的子集上的特征，以及一个解码器来利用可见块的特征来预测遮挡块的局部特征，最后以种子点为全局提示，重建遮挡的面片。在没有任何人工标注的自监督学习之后，我们可以将训练好的编码器转移到不同的下游任务中。我们通过在广泛使用的基准下比较我们的方法来展示我们的优越性能。

我们的主要贡献可概括如下:

我们提出了一种新的自监督学习框架3D Occlusion Auto-Encoder，3D-OAE设计了一种不对称的编码器-解码器Transformer结构，从可见的局部的patches学习特征(patterns)，然后利用这些特征生成被遮挡块(patches)的几何形状。经过自我监督学习后，编码器可以被转移到新的下游任务。
3D-OAE可以移除很大部分(75%)的点云块，只编码少量的可见的点云块。这使我们能够将训练速度提高3-4倍，并使在大规模未标记数据中高效地进行自我监督学习成为可能。
与之前的自监督方法相比，我们在6个不同的下游应用中实现了最先进的性能。

2. Related Work

3. Occlusion Auto-encoder(遮挡自动编码器)

3D-OAE也包含编码器(从输入形状学习表示)和解码器(从学习到的表示重建原始形状)组成。不像其它编码器对整个点云进行操作，3D-OAE将完整的点云(shape)分成几组patch，高度遮挡它们，并学习被遮挡的形状块。为此，设计了一种非对称编码器-解码器架构，其中编码器只对可见斑块子集进行操作，解码器从可见斑块中预测被遮挡斑块的局部特征。然后，我们结合预测的局部特征和对应的种子点作为全局提示，推断出与输入的三维形状语义匹配的缺失几何图形。具体来说，我们首先进行平均池化操作，将从训练好的编码器中提取的所有局部特征集合成一个全局特征来表示整个形状，然后将其输入到下游不同任务的特殊解码器中。

3.1 Grouping and Occluding(分组和遮挡)

以前基于Transformer的方法将原始形状中的每个单点视为最小操作单元，就像句子中的单词一样。然而，由于点云数据规模庞大(我们不希望一个句子有数千个单词)，它带来了巨大的计算复杂度和大量的内存需求。受前人作品[10,64]的启发，我们选择使用点云的patch作为最小单位。为了实现这一点，我们首先使用最远点采样(FPS)对给定的输入点云 $\in \mathbb{R}^{N \times 3}$ 上的种子点 $\in \mathbb{R}^{M \times 3}$ 进行采样，然后使用K近邻(KNN)对每个种子点

最低0.47元/天解锁文章

「已注销」

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[论文搬运]Self-Supervised Point Cloud Representation Learning with Occlusion Auto-Encoder

Self-Supervised Point Cloud Representation Learning with Occlusion Auto-Encoder1. Introduction本文研究不需要人工标注监督，学习点云的表示法。二维三维图像已经研究多年，有许多共同的实践，如基于自动编码的框架和基于自重构的监督。NLP和2D计算机视觉领域的最新发展也推动了3D表示学习的几个改进，如PCT[14]、Point-Bert[64]和STRL[20]。然而，2D和3D域之间的不同数据特性，让许多二维方法无法
复制链接

扫一扫