基于深度图将CLIP预训练模型用到3D点云数据分类任务

Paper title:CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth Pre-Training

什么是CLIP模型?

CLIP(Contrastive Language–Image Pre-training)模型是由OpenAI提出的一种多模态预训练模型,旨在实现语言与图像之间的语义对齐。CLIP模型利用大量的图文配对数据,通过对比学习(contrastive learning)方法来训练,使模型能够理解图像与文本之间的关系。

什么是3D预训练方法PointContrast?

从一个场景中采样两个不同的点云视图,生成一对相关的点云,不同的视图中同一个点云数据则是正样本,正样本在嵌入到空间中时尽可能相似,不同的视图不同的点云数据则是负样本,负样本嵌入到空间中时应尽可能不同。

自监督训练方法:

1. 对比学习

2. 掩码自动编码器

现状及问题:

1. 由于训练数据有限,3D视觉和语言的预训练模型仍然在开发中。

2. 把深度图视为图像用CLIP模型(PointCLIP模型),由于深度图与CLIP模型训练的图像数据集的图像域不同,所以使得CLIP模型的聚合不是很好。

3. 现有的工作主要聚焦于这种预训练模型训练数据图像域与点云转图像后的深度图图像域域不同的问题,还有深度图多视角一致性问题。

本论贡献:

为了解决图像域不同问题,主要有两种

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值