浅读CVPR2022-CrossPoint

本文介绍了CrossPoint,一种用于3D点云自监督学习的跨模态对比学习方法。通过对比2D图像和3D点云的特征,CrossPoint能在无标注数据上学习到可转移的点云表示,提高了在分类和分割等下游任务的性能。研究发现,使用一张2D渲染图进行预训练能得到最佳效果。
摘要由CSDN通过智能技术生成

目录

背景

论文主要贡献

相关工作

1. 点云的表征学习

2. 点云上的自监督学习

3. Cross-Modal Learning

网络架构

1. 整体分析 

2. 损失函数

 表现

 1. 下游任务

1.1 2D渲染图数量的选择

1.2 分类任务

1.3 分割任务

1.4 IMID和CMID效果

1.5 在CIFAR-FS上的少镜头分类

总结

参考


背景

大规模人工标注的点云数据集由于其不规则性,在三维物体的分类、分割和检测等任务往往是费力的。Self-supervised学习,无需人为标注,是解决该问题的一个非常有前景的方法。在现实世界中,人类能够将从2D图像中学习到的视觉概念映射到3D世界中。受此启发,于是作者提出了CrossPoint,一种简单的跨模态对比学习方法,用于学习可转移的3D点云表示。

论文主要贡献

(1)使用2D-3D数据在自监督学习上做对比学习,有利于网络对点云的特征学习

(2)提出了端到端的自监督学习的目标封装intra-model以及cross-model损失函数,这使得2D图像特征能更好的嵌入到3D特征中,从而有效避免特定增强的偏差。

(3)将CrossPoint广泛应用到各种下游任务中,效果优于原先的无监督学习。

(4)在CIFAR-FS数据集上执行了少镜头的图像分类,以证明从CrossPoint调优预处理后的图像性能优于标准基线。(就是说加了图片对于点云后续任务更好)

相关工作

1. 点云的表征学习

由于点云的不规则结构以及在处理点数据时所需要的置换不变性,这使得对于点云的表征学习相对于其它的表征学习(例如图像)更为困难,有了深度学习在点云上直接应用的先锋——PointNet,众多点云深度学习网络诞生。尽管网络表现性能很好,但其依赖于有着人为标注信息的数据集,这类数据集是难以获取的。于是,CrossPoint的诞生,就是为了从一大堆无标注信息的数据中提取可转移的特征信息,并将其应用于下游任务——分类以及分割。

2. 点云上的自监督学习

首先要对自监督学习有一个概念,众所周知,机器学习分为三类,有监督,无监督以及自监督,前两种定义十分明确,这里从论文原文简单说明自监督学习。

自监督学习分为两类,Generative Method(包括GNN以及AE,目的是重建给定的数据集);Contrastive Method(对比学习,论文使用的架构),这里可以学习Siamese neural network(孪生神经网络)。

​​​​​​Siamese network 孪生神经网络--一个简单神奇的结构https://zhuanlan.zhihu.com/p/35040994

 我感觉,其实就是通过两个共享权值的网络,通过对同类输入的输出进行距离最小化,反类输入进行距离最大化来进行更新参数,至于距离度量的选择,就是一个叫Contrastive Loss的东西了。

3. Cross-Modal Learning

根据我的理解,作者是说利用跨模型来学习,分别是2D图像以及3D模型之间的特征迁移与嵌入,其中提到了一个叫pixel-to-point 的image features extractorLearning from 2D: Contrastive Pixel-to-Point Knowledge

  • 7
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值