【CVPR 2022】 PointCLIP： Point Cloud Understanding by CLIP. [code] [Understanding]

算法研究员

已于 2022-07-30 15:46:59 修改

阅读量2.4k

点赞数 6

文章标签：计算机视觉点云论文

于 2022-05-02 00:31:45 首次发布

本文链接：https://blog.csdn.net/weixin_43154149/article/details/124535535

版权

本文研究了如何将对比视觉-语言预训练模型CLIP应用于3D点云识别。通过提出PointCLIP，将点云转化为多视图深度图并利用CLIP的图像编码器，实现了从2D到3D的知识迁移。在小样本设置中，通过添加视图间适配器进行微调，显著提高了性能。尽管零样本识别效果不佳，但在有限的数据和资源条件下，PointCLIP在3D点云理解上展现出潜力，并能与传统3D监督网络互补，提升整体性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

最近，通过对比视觉-语言预训练 (CLIP) 进行的零样本和小样本学习在 2D 视觉识别方面表现出鼓舞人心的表现，该方法学习在开放词汇设置中将图像与其对应的文本进行匹配。然而，通过 2D 中的大规模图像-文本对预训练的 CLIP 是否可以推广到 3D 识别，仍有待探索。

在本文中，我们通过提出 PointCLIP 来确定这种设置是可行的，它在 CLIP 编码的点云和 3D 类别文本之间进行对齐。

具体来说，我们通过将点云投影到多视图深度图中而不进行渲染来编码点云，并聚合视图方式的零样本预测以实现从 2D 到 3D 的知识迁移。最重要的是，我们设计了一个视图间适配器，以更好地提取全局特征，并将从 3D 中学到的小样本知识自适应地融合到 2D 中预训练的 CLIP 中。

通过在小样本设置中微调轻量级适配器，PointCLIP 的性能可以大大提高。此外，我们观察到 PointCLIP 和经典 3D 监督网络之间的互补特性。通过简单的集成，PointCLIP 提高了基线的性能，甚至超越了最先进的模型。因此，PointCLIP 是在低资源成本和数据机制下通过 CLIP 进行有效 3D 点云理解的有前途的替代方案。

1. 四个问题

1. 解决什么问题

最近，通过对比视觉-语言预训练 (CLIP) 进行的零样本和小样本学习在 2D 视觉识别方面表现出鼓舞人心的表现，该方法学习在开放词汇设置中将图像与其对应的文本进行匹配。然而，通过 2D 中的大规模图像-文本对预训练的 CLIP 是否可以推广到 3D 识别，仍有待探索。（CLIP能否从2D 拓展到 3D识别）

在这里插入图片描述

2. 用了什么方法解决

利用CLIP的图像编码器和文本编码器（但点云要转换为2D 多视角深度图），如果要做Few-shot, Inter-view Adapter(图中绿色模块)就可以看作是添加的分类头（3层MLP）进行微调。

在本文中，我们通过提出 PointCLIP 来确定这种设置是可行的，它在 CLIP 编码的点云和 3D 类别文本之间进行对齐。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6L45sVZY-1651422485769)(D:\【A_论文阅读】\A_新点云论文[CVPR 2022] PointCLIP： Point Cloud Understanding by CLIP. [code] [Understanding].assets\image-20220307233131739.png)]$

具体来说，我们通过将点云投影到多视图深度图中而不进行渲染来编码点云（这里用的是SimpleView的工作），并聚合视图方式的零样本预测以实现从 2D 到 3D 的知识迁移。最重要的是，我们设计了一个视图间适配器，以更好地提取全局特征，并将从 3D 中学到的小样本知识自适应地融合到 2D 中预训练的 CLIP 中。

在这里插入图片描述

通过在小样本设置中微调轻量级适配器，PointCLIP 的性能可以大大提高。此外，我们观察到 PointCLIP 和经典 3D 监督网络之间的互补特性。通过简单的集成，PointCLIP 提高了基线的性能，甚至超越了最先进的模型（指在few-shot情况下）。因此，PointCLIP 是在低资源成本和数据机制下通过 CLIP 进行有效 3D 点云理解的有前途的替代方案。

图中Multi-knowledge Ensembling就是简单的模型融合，在最后的概率上做加法就行了

We conduct inferences of the two models and ensemble their predicted logits by simple addition as the final output.

3. 效果如何

zero效果不行20-30，few-shot（16-shot）还可以85-87
以及投影视图的数量和重要性
在这里插入图片描述

Prompt

在这里插入图片描述
图像编码器的选择

4. 还存在什么问题

zero shot的效果低…准确度才30(ModelNet10)，20（ModelNet40），15（ScanObejctNN），能否zero shot的效果还能提升？（之前在2D图像识别做zero shot效果也低，直到CLIP 用大数据 + 大模型才把效果推上去，3D点云用预训练好的2D编码器可能不行…）
模型融合之后效果提升，就是作者说的PointCLIP能够提供2D信息从而互补？（这点存疑，因为模型融合之后一般来说效果都有所提升，自己做过李宏毅实验2也是ensemble model，但是后面作者也做了实验，说明并不是两两模型融合都有提升，而PointCLIP融合之后都能提升，说明PointCLIP是真的能够提供互补信息的（指2D信息，3D信息在另一个在3D点云上训练好的模型））
本文利用CLIP只做了3D分类任务，其它任务还未探索。（文章观点）

Although PointCLIP realizes the transfer learning from 2D to 3D, how to utilize CLIP’s knowledge for other 3D tasks is still under explored. Our future work will focus on generalizing CLIP for wider 3D applications