【论文精读】Multi-view Convolutional Neural Networks for 3D Shape Recognition

最新推荐文章于 2025-04-07 23:25:43 发布

Atlas8346

最新推荐文章于 2025-04-07 23:25:43 发布

阅读量8.9k

点赞数 5

本文链接：https://blog.csdn.net/qq_25011449/article/details/81029812

版权

本文介绍了一种利用多视图卷积神经网络(MVCNN)进行三维物体识别的方法。通过处理多视角的二维图像，该方法能够有效地提取三维物体特征，并在分类和检索任务中表现出优越性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Multi-view Convolutional Neural Networks for 3D Shape Recognition

原文地址：Multi-view Convolutional Neural Networks for 3D Shape Recognition
代码和数据：Code and data

这篇文章使用三维物体Multi-view（多视角）的二位渲染图片作为训练数据，基于CNN对三维物体进行识别。作者在文中说，这样做的识别效果相较于直接使用三维数据的方法要好很多。

Introduction

目前的物体识别方法都是基于二维平面图象的，对于三维的模型来说，如何表示模型是一个问题，Wu等人使用深度信念网络（deep belief network，DBN）对三维像素点标识的物体进行了识别（效果可能不太理想）。直觉上，三维模型中包含物体所有的空间信息，直接通过三维模型来识别似乎效果会更好，但是，使用二维的图片识别却有很多好处，比如：数据量比较小，训练比较快；有许多已经预训练的CNN架构。

使用多视角的二维图像进行物体识别的一个问题就是怎样把多个二维视角中的信息整合起来，为此，作者提出了multi-view CNN（MVCNN）架构。MVCNN有点像常规CNN在训练前扩充数据的操作（如对图像系进行旋转平移等），文中称之为“jittering”。MVCNN尝试去结合多视角的数据而并非简单的平均，这样能获得更多有关物体的信息。

这部分介绍了三维物体的表示方法和CNN。

Shape descriptors

3D shape descriptors
polygon meshes, voxel-based discretizations, point clouds, or implicit surfaces
view-based descriptors
三维物体的二维投影

将三维形状描述的数据应用在机器学习中有一些难度。首先，相比二维图像的数据库，三维模型的数据库太少了；另外，三维数据特征维度容易很高，造成过拟合和维数灾难。

使用二维图像描述三维模型有很多优势，维度相对较低，对三维形状的描述也具有鲁棒性。然而目前的大部分方法都是人工设计的特征，泛化能力不强，很难跨领域使用。

Convolutional neural networks

CNN在图像识别领域已经功勋卓著，有人也使用CNN对双目相机拍摄的图像进行三维物体识别，但是，本文能够以无特定顺序的任意数量的图像作为输入提取出一致的形状的特征描述。

本文的贡献点：研究了如何使用二维view-based特征描述来识别三维物体，同时通过使用view-pooling layer将不同的视图结合，最终得到单一的，简洁的形状描述算子。

Method

使用一般的平均或者排序方法来处理多个视角图像得到的特征描述算子并不适用，作者希望找到能够结合多个视角特征的方法产生单一的简洁的形状特征描述算子。

mvcnn

Input: Multi-view Representation

获取渲染图有两种方式：

类似图1，围绕着z轴每个三十度取一张图片，虚拟相机向下倾斜三十度。
使用正二十面体包围三维模型，在每个面的中心放置虚拟相机，然后依次旋转0°，90°，180°，270°（这里不太懂怎么旋转的）抓取四张图片，总共获得80张渲染的图片。

Recognition with Multi-view Representations

这一步要考虑如何将所有的投影图的特征整合来描述三维特征，以便进行下面的识别任务。

Image descriptors

考虑了一下两类图像描述算子：

基于Fisher vectors with multi-scale SIFT
使用VLFeat，使用PCA进行特征维度压缩，压缩至80维，然后Fisher vector pooling with a Gaussian mixture model with 64 components, square-root and $l_2$ normalization。
CNN特征
包括5个卷积层，3个全连接层，最后用Softmax分类。倒数第二层经过ReLU激活后用来描述图像特征，共4096维。网络是在ImageNet上预练过的。

两种方法都能获得比较好的特征描述算子。

Classification

使用一对多线性SVM作为分类器，在测试时，作者把12个视图中置信度最高的那个类别返回效果较好，若使用所有试图置信度的平均值则效果不好，有可能因为有些视图中并不包含三维模型的主要特征信息。

Retrieval

这里作者用 $l_2$ 范数定义了两个三维形状之间距离的度量方式如公式1。

distance

Multi-view CNN: Learning to Aggregate Views

对于直接使用三维数据训练的方法，上面的使用多个分离特征描述算子的方法已经好很多了，然而在很多情况下这种方法显得效率不高。比如在公式1中要求出 $n_x \times n_y$ 个距离。另外，简单的将这些特征进行组合，如求平均，效果会不好。因此需要对多个视图的特征进行结合以便形成单一的，简洁的特征。

作者设计了MVCNN如图1中所示，所有角度的视图首先被分别输入CNN1（他们权值共享）中，之后被一起放入view-pooling layer，这一层中采用按元素取最大值的方式（参考这篇博文），然后将view-pooling layer的输出再送入CNN2。MVCNN可以使用随机梯度下降进行后向传播的训练。使用MVCNN可以得到更快速更优异的结果。