MVCNN:利用二维多视角的3D识别

该博客介绍了MVCNN(Multi-view Convolutional Neural Networks)方法,利用2D多视角图像提升3D物体识别效果。通过训练2D渲染图像,MVCNN在分类和检索任务上优于直接使用3D数据的模型。关键在于View-pooling层,它融合不同视角的特征,提供高效3D形状描述符。
摘要由CSDN通过智能技术生成

Highlights

用物体的三维数据从不同“视角”所得到的二维渲染图,作为原始的训练数据。用经典、成熟的二维图像卷积网络进行训练,训练出的模型,对三维物体的识别、分类效果之好,比那些用三维数据直接训练出的模型好很多。

Critical Review

Introduction

由于之前人们很少能够接触到直接的三维物体特征,所以一直以来在计算机视觉中研究者大多是使用3维图像的2维特征来进行识别等操作。随着技术的发展,虽然有一些公开的3维库但是数量有限。本文推出了一种看起来“很不靠谱”的方法,即通过2D图片的渲染来生成一个3D图片分类器,并且效果可以显著的超过直接使用3D图片进行分类的模型,这是因为通过2D可以利用大量的现有image description和databases。值得一提的是,作者特意着重强调了dramatically outperform这个词,可见其对自己的工作还是很有信心的。

MVCNN

文中还提到“抖动”这一方法,在这里可以理解为我们在进行训练前的数据增强,比如旋转、缩放、对称映射和平移等操作,这样可以获得更多的数据,也可以使得模型自动的去学习要识别物体的变换不变性。

从上图我们也可以得知,最后的模型需要融合12个视角的数据来综合判断,那么如何融合就成为了模型的关键。这里作者尝试了使用combine方式和之前常用的averageing方式,实验结果表明前者效果更加优异。其实从现在来说,这是肯定的,因为我们现在较常用的特征融合一般就是采用combine的方式来结合的,而不是简单地相加平均。

Method

Input: A Multi-view Representation

对于形状描述算子等相关知识在这里就不做介绍,我们重点来看一下本文所采用的具体方法。

本文的工作中面对的主要问题是:

  • 作者研究的这个Multi-view based三维形状描述算子,目前研究较少
  • 在将同一件三维形状的不同视角下的图,结合起来提取三维形状描述算子的具体结合方法
    对此,作者提出了一个叫做“view-pooling layer”的结构,经过实验,发现三维形状数据经过多视角的图结合,经过CNN网络训练后,能够提取到单一、简单的形状描述算子。

这里需要说明的是,上图中的相机并不是真正的相机,而是“虚拟相机”。在真实工作中,是以虚拟引擎渲染出12个不同视角的。而为了产生3D形状的多视角渲染图,我们需要设定一个“视角”(虚拟相机)来产生网格的渲染图。

文中试验了两种视角初始化。

  1. 假设输入的3D形状是按照一个恒定的轴(Z-轴)正直的摆放的。这种情况下,物体被12个“虚拟相机”包围,也就是每隔30度,产生一个2D视角渲染图。而且在相机工作时,是与水平面有30度的水平角的,且径直指向3D网格数据的中心。
  2. 此时假设3D形状不沿着恒定的Z轴放置。此时物体的形状会更加显得不规则,所以需要更多的视角来确定。文中采用的是围绕物体生成20面体,然后放置20个虚拟相机,每个虚拟相机通过旋转0、90、180和270度来获得4个视角的数据,因此总共可以获得80个视角的数据。

同时作者注意到,使用不同的阴影系数或光照模型并不会影响我们的输出描述算子,因为学习到的滤波器对光照变化的不变性。

Recognition with Multi-view Representations

本文中使用的CNN是基于VGG-M的变种,网络结构主要为:5个卷积层,3个全连接层,最后通过一个Softmax进行分类。其中倒数第二层被用作图像描述算子。整个网络先在ImageNet图像集上进行预训练(这里2D的好处就体现出来了,利用规模更大的数据集帮助加快特征学习和收敛),之后用之前采集到的多视角图像进行微调。实验表明,微调能够显著的改善性能。相比较于当时比较流行的3D形状描述算子(如:SPH、LFD)以及3D ShapeNets,CNN在分类与检索任务上都能够取得更优异的表现。

在分类部分,文章使用了线性核SVM,一对多的方式去结合图像特征分类3D形状。在测试阶段,文章使用的是取特征值最大的那个
作为最后的分类,同时作者也尝试了取平均特征值但是效果不好。

检索任务需要定义一种距离、相似度的度量方式。对于3D形状 X X X,其图像描述子为: n x n_x nx,对于3D形状 Y Y Y,其图像描述子为: n y n_y n

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值