计算机视觉中一个长期存在的问题涉及用于识别的 3D 形状的表示:3D 形状是否应该使用在其本机 3D 格式上运行的描述符(例如体素网格或多边形网格)来表示,还是可以使用基于视图的描述符来有效表示?我们在学习从 2D 图像渲染视图集合中识别 3D 形状的背景下解决了这个问题。我们首先提出了一个标准的 CNN 架构,经过训练可以独立地识别形状的渲染视图,并表明即使从单个视图也可以识别 3D 形状,其准确度远远高于使用最先进的 3D 形状描述符。当提供形状的多个视图时,识别率进一步提高。此外,我们提出了一种新颖的 CNN 架构,它将来自 3D 形状的多个视图的信息组合成单个紧凑的形状描述符,从而提供更好的识别性能。相同的架构可用于准确识别人类手绘的形状草图。我们得出的结论是,2D 视图的集合可以为 3D 形状识别提供丰富的信息,并且适合新兴的 CNN 架构及其衍生产品。
1介绍
图 1:用于 3D 形状识别的多视图 CNN(使用第一个相机设置进行说明)。在测试时,从 12 个不同的视图渲染 3D 形状,并通过 CNN1提取基于视图的特征。然后将这些数据汇集到不同的视图中并通过 CNN2以获得紧凑的形状描述符。