Paper title:CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth Pre-Training
什么是CLIP模型?
CLIP(Contrastive Language–Image Pre-training)模型是由OpenAI提出的一种多模态预训练模型,旨在实现语言与图像之间的语义对齐。CLIP模型利用大量的图文配对数据,通过对比学习(contrastive learning)方法来训练,使模型能够理解图像与文本之间的关系。
什么是3D预训练方法PointContrast?
从一个场景中采样两个不同的点云视图,生成一对相关的点云,不同的视图中同一个点云数据则是正样本,正样本在嵌入到空间中时尽可能相似,不同的视图不同的点云数据则是负样本,负样本嵌入到空间中时应尽可能不同。
自监督训练方法:
1. 对比学习
2. 掩码自动编码器
现状及问题:
1. 由于训练数据有限,3D视觉和语言的预训练模型仍然在开发中。
2. 把深度图视为图像用CLIP模型(PointCLIP模型),由于深度图与CLIP模型训练的图像数据集的图像域不同,所以使得CLIP模型的聚合不是很好。
3. 现有的工作主要聚焦于这种预训练模型训练数据图像域与点云转图像后的深度图图像域域不同的问题,还有深度图多视角一致性问题。
本论贡献:
为了解决图像域不同问题,主要有两种