Papaer Title: PointCLIP: Point Cloud Understanding by CLIP
1. 研究背景
在实际应用中,经常会获取大量全新的3D点云数据,其中包含了模型训练时没有见过新类别的物体。对于这些未见过的类别,即使是最好的分类器也无法判断准确。由于点云训练数据有限,标注代价高,耗费的时间长,所以这是本文提出PointCLIP的出发点之一。
由于图像与点云存在模态差异,所以本论文提出了一种解决方案,首先将点云数据转换成深度图,通过视觉编码器对提取的点云多视图进行编码,再通过文本分类器对每个视图进行零样本预测,然后通过加权聚合各视图结果,最终得出分类结果。
传统的3D点云模型在特定的封闭集(特定数据集范围)性能表现出色,但难以泛化到新类别。CLIP模型擅长识别新类别(开放集任务),能分类出未见过的类别,这二者可以取长补短。
3D中的零样本学习 (Zero-shot Learning in 3D)
已有的3D点云模型通过部分3D样本进行训练,并对其他样本进行预测。而PointCLIP不同,仅通过2D数据进行预训练,直接在“未见”3D样本上实现零样本识别。
迁移学习 (Transfer Learning)
大多数现有方法都局限于同模态内的知识迁移,而本文提出的PointCLIP能够高效地将从2D图像学习的表征迁移到完全不同的3D点云模态。
深度神经网络在点云中的应用 (Deep Neural Networks for Point Clouds)
现有的针对点云的深度神经网络可以分为基于点(Point-base