【CVPR 2022】 PointCLIP: Point Cloud Understanding by CLIP. [code] [Understanding]

在这里插入图片描述

最近,通过对比视觉-语言预训练 (CLIP) 进行的零样本和小样本学习在 2D 视觉识别方面表现出鼓舞人心的表现,该方法学习在开放词汇设置中将图像与其对应的文本进行匹配。然而,通过 2D 中的大规模图像-文本对预训练的 CLIP 是否可以推广到 3D 识别,仍有待探索。

在本文中,我们通过提出 PointCLIP 来确定这种设置是可行的,它在 CLIP 编码的点云和 3D 类别文本之间进行对齐。

具体来说,我们通过将点云投影到多视图深度图中而不进行渲染来编码点云,并聚合视图方式的零样本预测以实现从 2D 到 3D 的知识迁移。最重要的是,我们设计了一个视图间适配器,以更好地提取全局特征,并将从 3D 中学到的小样本知识自适应地融合到 2D 中预训练的 CLIP 中。

通过在小样本设置中微调轻量级适配器,PointCLIP 的性能可以大大提高。此外,我们观察到 PointCLIP 和经典 3D 监督网络之间的互补特性。通过简单的集成,PointCLIP 提高了基线的性能,甚至超越了最先进的模型。因此,PointCLIP 是在低资源成本和数据机制下通过 CLIP 进行有效 3D 点云理解的有前途的替代方案。

1. 四个问题

1. 解决什么问题

最近,通过对比视觉-语言预训练 (CLIP) 进行的零样本和小样本学习在 2D 视觉识别方面表现出鼓舞人心的表现,该方法学习在开放词汇设置中将图像与其对应的文本进行匹配。然而,通过 2D 中的大规模图像-文本对预训练的 CLIP 是否可以推广到 3D 识别,仍有待探索。(CLIP能否从2D 拓展到 3D识别)

在这里插入图片描述

2. 用了什么方法解决

利用CLIP的图像编码器和文本编码器(但点云要转换为2D 多视角深度图),如果要做Few-shot, Inter-view Adapter(图中绿色模块)就可以看作是添加的分类头(3层MLP)进行微调。

在本文中,我们通过提出 PointCLIP 来确定这种设置是可行的,它在 CLIP 编码的点云和 3D 类别文本之间进行对齐。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6L45sVZY-1651422485769)(D:\【A_论文阅读】\A_新点云论文[CVPR 2022] PointCLIP: Point Cloud Understanding by CLIP. [code] [Understanding].assets\image-20220307233131739.png)]

具体来说,我们通过将点云投影到多视图深度图中而不进行渲染来编码点云(这里用的是SimpleView的工作),并聚合视图方式的零样本预测以实现从 2D 到 3D 的知识迁移。最重要的是,我们设计了一个视图间适配器,以更好地提取全局特征,并将从 3D 中学到的小样本知识自适应地融合到 2D 中预训练的 CLIP 中。

在这里插入图片描述

通过在小样本设置中微调轻量级适配器,PointCLIP 的性能可以大大提高。此外,我们观察到 PointCLIP 和经典 3D 监督网络之间的互补特性。通过简单的集成,PointCLIP 提高了基线的性能,甚至超越了最先进的模型(指在few-shot情况下)。因此,PointCLIP 是在低资源成本和数据机制下通过 CLIP 进行有效 3D 点云理解的有前途的替代方案。

图中Multi-knowledge Ensembling就是简单的模型融合,在最后的概率上做加法就行了

We conduct inferences of the two models and ensemble their predicted logits by simple addition as the final output.

3. 效果如何

zero效果不行20-30,few-shot(16-shot)还可以85-87
以及投影视图的数量和 重要性
在这里插入图片描述
在这里插入图片描述

Prompt

在这里插入图片描述
图像编码器的选择
在这里插入图片描述

4. 还存在什么问题

  1. zero shot的效果低…准确度才30(ModelNet10),20(ModelNet40),15(ScanObejctNN),能否zero shot的效果还能提升?(之前在2D图像识别做zero shot效果也低,直到CLIP 用大数据 + 大模型才把效果推上去,3D点云用预训练好的2D编码器 可能不行…)

  2. 模型融合之后效果提升,就是作者说的PointCLIP能够提供2D信息从而互补?(这点存疑,因为模型融合之后 一般来说效果都有所提升,自己做过李宏毅实验2也是ensemble model,但是后面作者也做了实验,说明并不是两两模型融合都有提升,而PointCLIP融合之后都能提升,说明PointCLIP是真的能够提供互补信息的(指2D信息,3D信息在另一个在3D点云上训练好的模型))

  3. 本文利用CLIP只做了3D分类任务,其它任务还未探索。(文章观点)

    Although PointCLIP realizes the transfer learning from 2D to 3D, how to utilize CLIP’s knowledge for other 3D tasks is still under explored. Our future work will focus on generalizing CLIP for wider 3D applications

2. 论文介绍

3. 参考资料

  • [CVPR] PointCLIP: Point Cloud Understanding by CLIP. [code] [Understanding]

4. 收获

本文的卖点是:cross-modality(跨模态) zero-shot recognition on point cloud without any 3D training。

具体做法是:复用CLIP的图像编码器和文本编码器,为了使3D点云匹配图像2D的输入,将点云投影到多个视角的深度图,分别通过图像编码器得到特征f,再与文本特征求相似性算出分类结果。

如果要做few-shot就加个3层的MLP分类头,即文章的Inter-view Adapter模块(few-shot的效果大幅提升,但CLIP的初衷在于zero shot)

至于作者说的Multi-knowledge Ensembling 就是模型融合 ,在两个模型的最后的概率输出上做加法,这样就能性能提升了。(模型融合一般效果都能提升,至于PointCLIP是否用到了2D信息与3D 模型互补,这点存疑。)

本文可以看作是CLIP的后续应用,李沐老师视频讲解CLIP就有说到CLIP有很多后续工作,今天算是见到了。

(在两个数据集上ModelNet40(合成数据集)和ScanObjectNN(自然数据集,难)做得好就可以发论文了,所以任务也可以是很明确。)

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值