【EPCL】学习笔记

最新推荐文章于 2024-07-20 18:08:50 发布

雨休

最新推荐文章于 2024-07-20 18:08:50 发布

阅读量362

点赞数

文章标签：深度学习人工智能机器学习

本文链接：https://blog.csdn.net/m0_46261292/article/details/130244857

版权

Abstract

在NLP领域以及2D图像领域，预训练-微调范式由于具有高质量表示能力以及可移植性取得了很大的成功。但在3D点云领域预训练一个如此大的模型是不现实的。因此，作者提出高效点云学习(EPCL)，它是一种高效的点云学习器，可以直接用冻结的CLIP模型训练高质量的点云模型。此外，作者设计了一个任务令牌来缩小2D图像和3D点云之间的差距。

Introduction

1.介绍CLIP在4亿文本图像的大规模数据集上训练预训练的主干，以感知广泛的先验知识，从而生成高质量的表示，这使它能够灵活地应用于few-shot和zero-shot情况。

2.与二维图像中的CLIP预训练数据相比，三维点云中的训练样本数量仅为千分之一。从有限的训练样本中获得的先验知识也是有限的。

3.可以将CLIP模型作为预训练的骨干应用于点云任务，目前的3D预训练数据限制可以部分解决。然而，由于固有的域间隙，将2D CLIP模型应用于点云任务并非易事。

4.作者提出直接利用冻结CLIP模型来学习点云任务的模型——EPCL，学习了一个tokenizer和task token，以将输入点云转换为一系列标记。然后，将这些token从CLIP输入到CLIP的冻结的transformer中，而不对2D预训练的CLIP模型进行任何更改。
在这里插入图片描述

优点
1.桥接2D的CLIP模型与3D点云模型。
2.在没有配对数据的情况下对齐3D与2D模型。
对齐多模态模型已成为训练强预训练模型的主流方法，而现有方法通常需要配对数据。
3.不需要预训练。
4.有助于下游任务的few-shot learning

Related Works

CLIP-based methods
1.CLIP旨在从自然语言中学习可转移的视觉表示，其在各种下游任务中表现出了良好的效果。
2.Clipcap训练了一个轻量级的映射网络来生成有意义的标题。
3.EVL通过视频和文本表示之间的对比学习解决了zero-shot视频理解的任务。
由于领域差异，将CLIP直接应用于3D任务并非易事。
Point cloud representation learning
学习判别点云表示的方法主要分为两种：基于点的以及基于体素的。
1.基于点的：利用点的全局结构信息或局部属性来描述三维点云。
优点：可以直接从分析的点邻居中提取特征，内存消耗相对较小，不需要预处理步骤。
2.基于体素的：需要将给定的点云预处理成体素，然后采用基于体素的卷积神经网络进行表征。
优点：可以很容易地克服密度变化。
3D pretrained methods
现有的预训练方法主要分为3类：global contrastive、local contrastive、masking autoencoder(MAE)
1.global contrastive:比较点云的全局特征差异。
2.local contrastive:比较局部点特征差异。
3.masking autoencoder:将此策略引入到3D点云领域，并提出了几种预训练方法来学习预训练的transformer骨干。
本文提出了一种将预训练好的二维CLIP模型直接应用于点云的方法，而不是在三维数据上进行预训练。我们的方法可以应用于现实世界的合成点云任务。

Method

3.1先大致介绍了Vision Transformer和应用在点云的Transformer的工作原理，并将二者进行比较发现整体架构相似，都由LN、MSA和MLP链组成，不同的是深度特征提取过程中的标记器模块EI和Ep。因此，作者思考能否直接将2D的预训练结果直接应用在3D点云上。

3.2.EPCL framework

1.tokenizer:将输入点云转换成一系列的标记嵌入：输入点云数据采用最远点采样算法获得M个patch中心点，采用k近邻算法获得中心周围的k个点，将patches馈送到多个MLP层中，以获得token嵌入。
2.task token:由一个具有多个可学习参数的全连接层实现。
CLIP是结合文本和图像的对比学习模型，EPCL将tokenizer和task token馈送到二维预训练的Transformer中，并在二维CLIP模型中直接重用Transformer的参数来提取下游任务的深度特征。