Projective Feature Learning for 3D Shapes with Multi-View Depth Images

最新推荐文章于 2022-07-04 19:20:58 发布

leek1727

最新推荐文章于 2022-07-04 19:20:58 发布

阅读量1.4k

点赞数

本文链接：https://blog.csdn.net/lk798362252/article/details/47950435

版权

Projective Feature Learning for 3D Shapes with Multi-View Depth Images

摘要： 3D图形的特征学习很具有挑战性，因为缺乏自然的参数化的3D曲面模型。我们采用多视角的深度图像表示，提出了多视角的深度极限学习机（MDV-ELM）来实现3D图形的快速的、高品质的特征投影学习。和已经存在的多视角学习方法形成对比，我们的方法确保从相互依赖的不同的视角通过在每一层共享权值来学习特征映射，他们的这些预测通过用标准化的卷积核可以对输入的3D图形进行有效的重建。因为在几个应用中的令人鼓舞的结果的表现，促进了更加精确的3D特征的学习。此外，3D重构的性能能够清晰的可视化学习到的特征，这就进一步证明了我们的特征学习是富有意义的。

1、引言： 3D图形理解在计算机视觉和计算机图形学领域已经是一个长期存在的研究话题。在这其中一个共同努力就是提取描绘具有几何结构的特征。3D图形特征，全局的或者局部的，到目前为止主要还是人工设计的，或者手工制作的，捕获3D图形一些特殊的方面，例如几何结构、拓扑结构、部分结构等。

目前，成功的自动的特征学习已经引起了机器学习和计算机视觉研究团体的兴趣。他们的方法努力在收集到的训练书上自动的学习特征，而不是根据人为事先设计好的特征。这对深度学习技术的快速发展非常有益，学习到的特征在分类和识别任务上有着巨大性能的提升。

然而，当我们把深度学习技术用到3D图形的特征学习上时，首要的挑战是3D模型，向典型的2D图形的表示一样，没有一个像2D图像一样的标准表示。怎样利用已经存在的技术，对于不同的3D模型，参数化或者采样来编码3D几何信息，把它编码成大多数深度学习方法的输入所要求的统一维度的矩阵，这是很不明确的。

为了缓和这些问题，最自然的想法就是把3D图形转换成图像表示，目前有几个工作尝试过这种方法，证明是有希望的。例如，【15】成功的应用卷积深度自信网络（CDBN）在体积之上表示3D图形，或者3D图像。然而，由于输入数据增加的维度，CDBN的训练非常费时，这就把他们实施时的立体像素的像素值限制在了48*48*48。【14】把3D图形译成多视角的深度图像，然后在2D图像上执行自动编码器，很好的实现了3D图像的恢复。然而，这种投影变换的方法可能会丢失3D信息，因为投影的角度都是相互独立的。因此，他们的方法必须合并手工制作的图像特征来实现3D图形的分类。

生物学的研究推断，人类视觉皮层的3D形状知觉可以通过多视角的深度线索来形成。根据这个观点，我们也运用多视角深度的表示方法。为了解决上述的问题，实现强有力的特征学习，我们开发了一种叫做多视角深度极限学习机（MVD-ELM）的卷积神经网络，它是从单隐层前馈神经网络ELM推断而来的。我们的方法用友如下几个关键特征：

第一，MVD-ELM包含了多个通道，没一个通道对应一个投影视角，他们通过在所有的卷基层上共享权值来实现互相连接。
第二，通过引进标准化的卷积核，所有通道的特征映射能够在每一个隐含层重建输入图像。
第三，由于ELM训练的很快速，我们的方法比现存的深度学习的方法在训练上要快两个数量级。这就允许我们用更高分辨率的深度图像（128*128）。
最后，当实现一个全卷积版本的MVD-ELM时，我们的方法能够实现像素级的特征抽取。这些像素级的特征支持在一个单独的3D图像上进行多类别预测，这对3D图形分割特别有用。

实验证明，我们方法学习到的特征在3D图形的分类问题上比手工制作的特征有很大的提升。对于3D分割，我们学习到的特征与传统方法从很多种不同的手工制作的特征中进行特征选择，实现了可比较的效果。此外，我们的方法快速而且容易实现，使其在真实的应用中可实用。

2、相关工作：

多视角3D图形分析：通过将3D图形看作是2D图像从不同方向的投影，多视角投影分析已经广泛的应用在3D图形分析和理解中。【CK01】利用多视角投影来确认3D物体和它的位置。【CTSO03】提出了LFD，这是一个3D图形的旋转不变性的描述子，通过从多个视角投影2D图像的轮廓。投影的图形的描述子也被用来基于草图的3D图像检索。最近，【WGW13】用有标签的图像数据集来实现投影图形的分割。我们的3D图形分割也是投影的。最大的不同就是，我们的方法用了学习到的特征图谱来实现像素标签的预测，而不是直接匹配有标签的样本图像。

3D数据的深度学习：研究者已经成功的建立了多种深度模型，例如CNN，Deep Auto-Encoder Network，DBN，ELM AutoEncoder，来学习数据驱动发的特征。这些特征被证明是很有区分能力的。最近，一些工作试图通过深学习的方法来学习3D图形的特征。【WSK15】用3D图形的体积表示法，应用3D深度自信网络（DBN），得到图像分类的好的结果。【ZWB14】利用Auto-Encoder通过多视角深度图像来学习3D图形特征，得到了很好的3D检索的效果。【SMKLM15】提出了多视角CNN，用来做3D图形的识别，多视角的特征用另外的一个CNN来整合。

通过深度学习来实现多标签学习：深度神经元网络，例如CNN，已经被证明是在图像分类上有很好的性能。最近，有一些工作在多标签图像分割上【LSD15，CPK14，WXH14】.这些工作把CNN的全连接层转化为卷积层，是分裂的网络能够达到像素级别的标签预测。这些像素级别的标签可以被用来当做有标签的分割的输入图像。我们没有意识到有任何的工作在多标签的3D图像分割上运用深度学习。为了实现，我们实现了全卷积的MVD-ELM来预测多视角深度图像的像素级别的标签。

3、ELM和基于ELM的特征学习： ELM很早就被当做一个单隐层前馈神经网络提出来了。跟其他的神经网络不同的是它没有反向传播（BP），ELM中的隐含节点不需要调整，但是可以随机生成，只要神经元的激活函数是非线性分段连续函数。隐含层和输出层的权值可以用一个解析解的形式来优化。ELM包含两个阶段，特征映射和学习。

ELM特征映射：给定的输入数据x，ELM的输出函数为：