MVCNN：利用二维多视角的3D识别

钧娃

已于 2022-05-10 00:20:38 修改

阅读量1.3w

点赞数 8

分类专栏：论文有感文章标签： CNN 3D Recognition computer vision

于 2018-11-05 13:06:32 首次发布

本文链接：https://blog.csdn.net/liuestcjun/article/details/83747727

版权

该博客介绍了MVCNN（Multi-view Convolutional Neural Networks）方法，利用2D多视角图像提升3D物体识别效果。通过训练2D渲染图像，MVCNN在分类和检索任务上优于直接使用3D数据的模型。关键在于View-pooling层，它融合不同视角的特征，提供高效3D形状描述符。

摘要由CSDN通过智能技术生成

Highlights

用物体的三维数据从不同“视角”所得到的二维渲染图，作为原始的训练数据。用经典、成熟的二维图像卷积网络进行训练，训练出的模型，对三维物体的识别、分类效果之好，比那些用三维数据直接训练出的模型好很多。

Critical Review

Introduction

由于之前人们很少能够接触到直接的三维物体特征，所以一直以来在计算机视觉中研究者大多是使用3维图像的2维特征来进行识别等操作。随着技术的发展，虽然有一些公开的3维库但是数量有限。本文推出了一种看起来“很不靠谱”的方法，即通过2D图片的渲染来生成一个3D图片分类器，并且效果可以显著的超过直接使用3D图片进行分类的模型，这是因为通过2D可以利用大量的现有image description和databases。值得一提的是，作者特意着重强调了dramatically outperform这个词，可见其对自己的工作还是很有信心的。

MVCNN

文中还提到“抖动”这一方法，在这里可以理解为我们在进行训练前的数据增强，比如旋转、缩放、对称映射和平移等操作，这样可以获得更多的数据，也可以使得模型自动的去学习要识别物体的变换不变性。

从上图我们也可以得知，最后的模型需要融合12个视角的数据来综合判断，那么如何融合就成为了模型的关键。这里作者尝试了使用combine方式和之前常用的averageing方式，实验结果表明前者效果更加优异。其实从现在来说，这是肯定的，因为我们现在较常用的特征融合一般就是采用combine的方式来结合的，而不是简单地相加平均。

Method

Input: A Multi-view Representation

对于形状描述算子等相关知识在这里就不做介绍，我们重点来看一下本文所采用的具体方法。

本文的工作中面对的主要问题是：

作者研究的这个Multi-view based三维形状描述算子，目前研究较少
在将同一件三维形状的不同视角下的图，结合起来提取三维形状描述算子的具体结合方法
对此，作者提出了一个叫做“view-pooling layer”的结构，经过实验，发现三维形状数据经过多视角的图结合，经过CNN网络训练后，能够提取到单一、简单的形状描述算子。

这里需要说明的是，上图中的相机并不是真正的相机，而是“虚拟相机”。在真实工作中，是以虚拟引擎渲染出12个不同视角的。而为了产生3D形状的多视角渲染图，我们需要设定一个“视角”（虚拟相机）来产生网格的渲染图。

文中试验了两种视角初始化。

假设输入的3D形状是按照一个恒定的轴（Z-轴）正直的摆放的。这种情况下，物体被12个“虚拟相机”包围，也就是每隔30度，产生一个2D视角渲染图。而且在相机工作时，是与水平面有30度的水平角的，且径直指向3D网格数据的中心。
此时假设3D形状不沿着恒定的Z轴放置。此时物体的形状会更加显得不规则，所以需要更多的视角来确定。文中采用的是围绕物体生成20面体，然后放置20个虚拟相机，每个虚拟相机通过旋转0、90、180和270度来获得4个视角的数据，因此总共可以获得80个视角的数据。

同时作者注意到，使用不同的阴影系数或光照模型并不会影响我们的输出描述算子，因为学习到的滤波器对光照变化的不变性。

Recognition with Multi-view Representations

本文中使用的CNN是基于VGG-M的变种，网络结构主要为：5个卷积层，3个全连接层，最后通过一个Softmax进行分类。其中倒数第二层被用作图像描述算子。整个网络先在ImageNet图像集上进行预训练（这里2D的好处就体现出来了，利用规模更大的数据集帮助加快特征学习和收敛），之后用之前采集到的多视角图像进行微调。实验表明，微调能够显著的改善性能。相比较于当时比较流行的3D形状描述算子（如：SPH、LFD）以及3D ShapeNets，CNN在分类与检索任务上都能够取得更优异的表现。

在分类部分，文章使用了线性核SVM，一对多的方式去结合图像特征分类3D形状。在测试阶段，文章使用的是取特征值最大的那个
作为最后的分类，同时作者也尝试了取平均特征值但是效果不好。

检索任务需要定义一种距离、相似度的度量方式。对于3D形状 $X$ ，其图像描述子为： $n_x$ ，对于3D形状 $Y$ ，其图像描述子为： $n_y$