CrossPoint：自监督3D点云场景理解（CVPR2022）

最新推荐文章于 2025-03-13 16:28:58 发布

3Ｄ视觉工坊

最新推荐文章于 2025-03-13 16:28:58 发布

阅读量1.8k

点赞数 1

文章标签：算法 python 计算机视觉神经网络机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247611073&idx=2&sn=8cdf95395768a25400bd9f685d93ccce&chksm=fbfd19f5cc8a90e302ca8515c431ac94f09a32c05882f7cdd75a85b03ccd29892f8408c9b545&scene=126&&sessionid=0

版权

作者丨一个普通的求学者@知乎

来源丨https://zhuanlan.zhihu.com/p/482785806

编辑丨3D视觉工坊

原文标题

背景

大规模人工标注的点云数据集由于其不规则性，在三维物体的分类、分割和检测等任务往往是费力的。Self-supervised学习，无需人为标注，是解决该问题的一个非常有前景的方法。在现实世界中，人类能够将从2D图像中学习到的视觉概念映射到3D世界中。受此启发，于是作者提出了CrossPoint，一种简单的跨模态对比学习方法，用于学习可转移的3D点云表示。

论文主要贡献

（1）使用2D-3D数据在自监督学习上做对比学习，有利于网络对点云的特征学习

（2）提出了端到端的自监督学习的目标封装intra-model以及cross-model损失函数，这使得2D图像特征能更好的嵌入到3D特征中，从而有效避免特定增强的偏差。

（3）将CrossPoint广泛应用到各种下游任务中，效果优于原先的无监督学习。

（4）在CIFAR-FS数据集上执行了少镜头的图像分类，以证明从CrossPoint调优预处理后的图像性能优于标准基线。(就是说加了图片对于点云后续任务更好)

网络架构

CrossPoint的网络架构

1. 整体分析

这里上半部分是有两个P输入的，作者称其为augmented versions。其实就是原始3D模型进行随机变换（如旋转，放缩以及平移），这里其实很类似于前文提到的Siamese neural network，两层网络都共享权重，最后得到的Z取两个的平均。

2. 损失函数

便于理解，我们不妨把上述公式做一个转换

为了最小化 L，需要分母项增大而分子项减小（这里不是很明白为什么求和时两个都是k，按照原本的NT-Xent损失函数，比对的是该输出与batch中2N-2个样本之间的相似度，2N中一个是本身，一个是augmented version）。详情点击Normalized Temperature-scaled Cross Entropy Losss(https://paperswithcode.com/method/nt-xent)

而且从原文作者描述也能看到

最后总Loss就是两个相加

下游任务

1.1 2D渲染图数量的选择

作者发现，一张图是效果最好的，因此后续实验都选择了一张渲染图片。

1.2 分类任务

1.3 分割任务

1.4 IMID和CMID效果

1.5 在CIFAR-FS上的少镜头分类

后续点云下游任务并未用到image的extractor，而单单把该extractor用来做分类，效果就不太理想了，原文作者说是因为原先使用的是3D点云模型的渲染图做预训练，并不能很好的泛化到CIFAR数据集上导致的（效果差异非常大）。

总结

这篇是在CVPR202203上的文章，还是非常新的深度学习点云学习，个人觉得亮点是引入了self-supervised learning中的contrastive learning做pretrain，值得一读，上述全为本人论文阅读笔记，如有不对请评论区指出。

参考

[1]. Learning from 2D: Contrastive Pixel-to-Point Knowledge Transfer for 3D Pretraining

[2]. Self-Supervised Learning 入门介绍

[3]. 对比式无监督预训练简介（Contrastive Pre-training）

[4]. Siamese network 孪生神经网络--一个简单神奇的结构

[5]. contrastive loss 详解

[6]. 余弦距离介绍

[7]. Normalized Temperature-scaled Cross Entropy Loss

[8]. CrossPoint

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊精品课程官网：3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
 4.国内首个面向工业级实战的点云处理课程
 5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
 6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
 7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
 8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

15.国内首个3D缺陷检测教程：理论、源码与实战

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：