【EPCL】学习笔记

Abstract

在NLP领域以及2D图像领域,预训练-微调范式由于具有高质量表示能力以及可移植性取得了很大的成功。但在3D点云领域预训练一个如此大的模型是不现实的。因此,作者提出高效点云学习(EPCL),它是一种高效的点云学习器,可以直接用冻结的CLIP模型训练高质量的点云模型。此外,作者设计了一个任务令牌来缩小2D图像和3D点云之间的差距

Introduction

1.介绍CLIP在4亿文本图像的大规模数据集上训练预训练的主干,以感知广泛的先验知识,从而生成高质量的表示,这使它能够灵活地应用于few-shot和zero-shot情况。

2.与二维图像中的CLIP预训练数据相比,三维点云中的训练样本数量仅为千分之一。从有限的训练样本中获得的先验知识也是有限的。

3.可以将CLIP模型作为预训练的骨干应用于点云任务,目前的3D预训练数据限制可以部分解决。然而,由于固有的域间隙,将2D CLIP模型应用于点云任务并非易事。

4.作者提出直接利用冻结CLIP模型来学习点云任务的模型——EPCL,学习了一个tokenizer和task token,以将输入点云转换为一系列标记。然后,将这些token从CLIP输入到CLIP的冻结的transformer中,而不对2D预训练的CLIP模型进行任何更改。
在这里插入图片描述

  • 优点
    1.桥接2D的CLIP模型与3D点云模型。
    2.在没有配对数据的情况下对齐3D与2D模型。
    对齐多模态模型已成为训练强预训练模型的主流方法,而现有方法通常需要配对数据。
    3.不需要预训练。
    4.有助于下游任务的few-shot learning

Related Works

  • CLIP-based methods
    1.CLIP旨在从自然语言中学习可转移的视觉表示,其在各种下游任务中表现出了良好的效果。
    2.Clipcap训练了一个轻量级的映射网络来生成有意义的标题。
    3.EVL通过视频和文本表示之间的对比学习解决了zero-shot视频理解的任务。
    由于领域差异,将CLIP直接应用于3D任务并非易事。
  • Point cloud representation learning
    学习判别点云表示的方法主要分为两种:基于点的以及基于体素的
    1.基于点的:利用点的全局结构信息或局部属性来描述三维点云。
    优点:可以直接从分析的点邻居中提取特征,内存消耗相对较小,不需要预处理步骤。
    2.基于体素的:需要将给定的点云预处理成体素,然后采用基于体素的卷积神经网络进行表征。
    优点:可以很容易地克服密度变化。
  • 3D pretrained methods
    现有的预训练方法主要分为3类:global contrastivelocal contrastivemasking autoencoder(MAE)
    1.global contrastive:比较点云的全局特征差异。
    2.local contrastive:比较局部点特征差异。
    3.masking autoencoder:将此策略引入到3D点云领域,并提出了几种预训练方法来学习预训练的transformer骨干。
    本文提出了一种将预训练好的二维CLIP模型直接应用于点云的方法,而不是在三维数据上进行预训练。我们的方法可以应用于现实世界的合成点云任务。

Method

3.1先大致介绍了Vision Transformer和应用在点云的Transformer的工作原理,并将二者进行比较发现整体架构相似,都由LN、MSA和MLP链组成,不同的是深度特征提取过程中的标记器模块EI和Ep。因此,作者思考能否直接将2D的预训练结果直接应用在3D点云上。

  • 3.2.EPCL framework

1.tokenizer:将输入点云转换成一系列的标记嵌入:输入点云数据采用最远点采样算法获得M个patch中心点,采用k近邻算法获得中心周围的k个点,将patches馈送到多个MLP层中,以获得token嵌入。
2.task token:由一个具有多个可学习参数的全连接层实现。
CLIP是结合文本和图像的对比学习模型,EPCL将tokenizer和task token馈送到二维预训练的Transformer中,并在二维CLIP模型中直接重用Transformer的参数来提取下游任务的深度特征。

实验和结论略,(懒得整理)看原文

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值