Spatio-temporal Self-Supervised Representation Learning for 3D Point Clouds

本文提出了一种时空自监督学习(STRL)框架,旨在从未标记的3D点云中学习表示。受婴儿学习方式启发,STRL通过时空线索学习不变量表示,适用于3D形状分类、室内和室外场景理解等任务。实验表明,自监督学习的表示在多种3D任务中表现出与监督学习方法相当甚至更好的性能,证明了其通用性和泛化性。
摘要由CSDN通过智能技术生成

Spatio-temporal Self-Supervised Representation Learning for 3D Point Clouds

摘要

到目前为止,各种 3D 场景理解任务仍然缺乏实用和可推广的预训练模型,这主要是由于 3D 场景理解的复杂性质及其由相机视图、照明、遮挡等带来的巨大变化。在本文中,我们通过引入时空表示学习(STRL)框架来应对这一挑战,能够以自我监督的方式从未标记的 3D 点云学习。受婴儿如何从野外视觉数据中学习的启发,我们探索了从 3D 数据中获得的丰富的时空线索。具体而言,==STRL从3D点云序列中提取两个时间相关的帧作为输入,利用空间数据增强对其进行变换,并自监督地学习不变量表示。==为了证实 STRL 的有效性,我们对三种类型(合成、室内和室外)的数据集进行了广泛的实验。实验结果表明,与监督学习方法相比,学习的自监督表示有助于各种模型获得可比甚至更好的性能,同时能够将预训练的模型推广到下游任务,包括 3D 形状分类、3D 对象检测和 3D 语义分割。此外,嵌入在 3D 点云中的时空上下文线索显著改善了学习的表示。

简述

作者通过 3D 点云的自监督表示学习来解决一个长期的问题,由于 3D 数据的监督目标性质,监督训练难以产生实用和可推广的预训练模型。

作者在设计模型的过程中考虑以下三个原则:

  1. 简单性:作者认为重建等自监督学习方法是复杂和不必要的。并且可以通过补充缺失的时间上下文线索来减少或消除,类似于婴儿如何理解这个世界。
  2. 不变性:通过数据增强和对比学习数据不变性在图像和视频上显示出了有希望的结果。
  3. 通用性:先前的方法仅验证了合成数据集上形状分类中的自监督表示学习,未能扩充到自然环境的 3D 数据中,不能充分证明通用性。

方法:

STRL 使用两个神经网络,称为在线网络目标网络,它们相互作用并相互学习。通过增加一个输入,我们训练在线网络来预测通过单独的增强过程获得的另一个时间相关输入的目标网络表示。

在线网络和目标网络的输入在时间上是相关的,从点云序列中采样。具体地说,对于自然图像/视频,作者采样了两个具有自然视点深度变化序列的帧作为输入对。对于像 3D Shape 这样的合成数据通过旋转、平移和缩放来扩大原始输入,以模拟视点变化。输入之间的时间差异有利于模型捕捉不同视点之间的随机性和不变性。额外的空间增强进一步促进了模型学习点云的 3D 空间结构;

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-i4SOjZFQ-1670244683086)(assets/image-20221203163701-bi93pb3.png)]

通过输入不同时序的点云对,分别对其进行空间增强。

下游任务:

  • 3D 形状分类、3D 对象检测、3D 语义分割

方法

作者设计了两种方法来生成训练点云序列,以处理各种数据源。

  • 自然序列:由 RGB-D 传感器捕获的数据序列

    ​[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-25jWNmhK-1670244683088)(assets/image-20221203164826-sj6h8w3.png)]​

  • 合成序列:与自然序列相比,缺少关键的时间维度。通过连续旋转、平移和缩放原始点云,以构建一系列点云 { p t } \{p_t\} { pt}

    p t = R t ( p t − 1 ) , t = 1 , . . . , T p_t=R_t(p_{t-1}), t=1, ...,T pt=Rt(pt

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值