论文速览:三维点云的表示与生成模型

Learning Representations and Generative Models for 3D Point Clouds

摘要

三维几何数据为研究表示学习和生成建模提供了一个很好的领域。在本文中,我们研究用点云表示的几何数据。介绍了一种具有最先进的重构质量和泛化能力的deep AutoEncoder (AE) 网络。学习表示在三维识别任务上优于现有方法,通过简单的代数操作实现了形状编辑,如语义部分编辑、形状类比和形状插值以及形状补全。我们对不同的生成模型进行了深入的研究,包括在原始点云上运行的GANs、在我们AEs的固定潜空间中训练的具有显著提升的GANs以及高斯混合模型(GMMs)。为了定量地评估生成模型,我们引入了基于点云组间匹配的样本保真度和多样性度量。有趣的是,我们对泛化、保真度和多样性的评估表明,在我们的AEs的潜在空间中训练过的GMMs总体效果最好。
论文链接:https://arxiv.org/abs/1707.02392
代码链接:https://github.com/optas/latent_3d_points

主要贡献

真实物体的三维表示是视觉、机器人、医学、增强现实和虚拟现实应用的核心工具。最近对用于深度学习的3D几何编码的尝试包括基于视图的投影,体积网格和图形。在这项工作中,我们集中关注三维点云的表示。在本文中,我们探索了深层架构在学习表示中的应用,并介绍了点云的第一个深层生成模型。在文献中,只有少数针对三维点云量身定制的深层架构存在,它们的关注点在别处:Pointnet以分类和分割为目标,或者只使用点云作为媒介或输出表示。
本文的主要贡献是:
1)一种新的点云的AE架构:灵感来自于Pointnet。Pointnet架构可以通过(i)对不可见样本进行高质量重建;(ii)通过简单分类方法(SVM)得到好的分类质量;(iii)对有意义语义的操作、插值和形状补全的能力,学习到紧凑的表达。
2)第一套点云深度生成模型:该模型能够合成点云,具有(i)可测量的高保真度,(ii)训练和待用数据的良好覆盖率。工作流程为首先训练一个AE来学习潜在的表示,然后在这个固定的潜在空间中训练一个生成模型。在潜在空间中训练的GANs,在这里称为l-GANs,比原始GANs更易于训练,并且实现了更好的重构效果和数据分布的覆盖。在潜在空间中进行训练时,多类GANs的表现几乎与特定于某类的GANs相当。
3)一项关于新旧点云 metrics 的研究:关于之指标在用于学习良好表示的重构目标与评估生成样本方面的适用性。还发现Chamfer distance,无法确定某些病态的情况。
4)生成模型的保真度和覆盖率:基于两个不同的点云集合之间的最佳匹配。提出的覆盖率可以识别生成模型完全忽略的部分数据分布,这是基于基数的多样性度量可能无法捕获的。

算法框架:

一、 点云的表示模型
AE网络的输入是一个2048点(2048×3矩阵)的点云,表示一个三维形状。编码器架构遵循pointnet的设计原则:内核大小为1且特征不断增加的一维卷积层;这种方法独立地编码每个点。在卷积之后放置一个“对称”的置换不变函数(例如max pool),以产生联合表示。用5个一维卷积层,每个后面跟着一个ReLU层和一个BN层。最后一个卷积层的输出逐特征最大化,生成一个k维向量,这是潜在空间的基础。解码器使用3个全连接层对潜在向量进行转换,前两个有ReLU层,产生2048×3维的输出。为了保持置换不变,使用了两种结构损失:EMD近似和CD,因此产生了两个不同的AE模型,称为AE-EMD和AE-CD。为了规范AEs,我们考虑了各种bottleneck尺寸,通过随机旋转点云来使用drop-out和on-the-fly augmentations(动态扩增)。本文使用的是具有128维bottleneck层的AE。
二、 点云的生成模型
2.1 Raw point cloud GAN (r-GAN)
首先尝试在将原始2048×3点集输入r-GAN。判别器的结构与AE相同,且没有用BN结构,激活函数为leaky ReLUs。最后一个全连接层的输出被送入一个sigmoid神经元。生成器将高斯噪声矢量作为输入,并通过5个全连接-激活层将其映射为2048×3的输出。
2.2 Latent-space GAN (l-GAN)
l-GAN不在原始点云输入上操作,而是将数据输入预训练的AE,该AE用具有EMD(或CD)损失函数的每个类别对象进行单独训练。然后,l-GAN的生成器和判别器都对AE的 bottleneck变量进行操作。训练结束后使用AE的解码器将生成器学习的编码转换为点云。l-GAN的结构明显比r-GAN的结构简单。具体而言,单个隐藏层的MLP生成器与两个隐藏层的MLP判别器耦合,足以产生可测量性良好和真实的结果。
2.3 Gaussian mixture model
还可以在AEs学得的潜在空间上建立了一系列高斯混合模型(GMMs)。首先对配置的分布进行采样,然后使用AE的解码器,GMM可以变成点云生成器,类似于l-GANs。

主要结果:

本项工作在P2提出两项指标:EMD与CD。以及三种生成模型的评估指标,包括:JSD、Coverage与MMD,详见论文。本文通过试验确定了提出的评估指标的有效性。实验数据基于ShapeNet,按照85%-5%-10%的比例划分的训练/验证/测试集。
一、AE的表示能力
首先,用MMD-CD和MMD-EMD度量来报告其泛化能。AE能够重建不可见的形状,其质量几乎与用于训练的形状一样好。如表1,比较重建点云和真实值之间的MMD-CD和MMD-EMD,在该指标下的繁华差距很小。
在这里插入图片描述
利用AE还可以在潜在编码可以进行语义上有意义的操作以及完成形状补全问题。具体而言,AE网络不仅可以重建相同的点云,也可以输出预期形状,详见附录D。
使用潜在表示来训练SVM分类器,并得到分类分数。见表2,ModelNet10和ModelNet40数据集上都有较高的分数。
在这里插入图片描述
二、 评估生成模型
训练了五个带有椅子类别点云的生成器。首先建立两个分别用CD或EMD损失训练的AE,分别称为AE-CD和AE-EMD,并在每个潜在空间训练l-GAN,使用Goodfellow等人的非饱和损失。在AE-EMD学习的空间中,我们训练了另外两个模型:一个相同的(架构方面的)l-GAN,利用具有梯度惩罚的Wasserstein目标和一个GMM族,具有不同数量的方法和协方差结构。 我们还直接在点云数据上训练r-GAN。表3,验证了基于潜在方法和使用AE-EMD与AE-CD的效果。此外,证明了简单的GMM可以获得与潜在WGAN质量相当的结果。
在这里插入图片描述

Abstract

Three-dimensional geometric data offer an excellent domain for studying representation learning and generative modeling. In this paper, we look at geometric data represented as point clouds. We introduce a deep AutoEncoder (AE) network with state-of-the-art reconstruction quality and generalization ability. The learned representations outperform existing methods on 3D recognition tasks and enable shape editing via simple algebraic manipulations, such as semantic part editing, shape analogies and shape interpolation, as well as shape completion. We perform a thorough study of different generative models including GANs operating on the raw point clouds, significantly improved GANs trained in the fixed latent space of our AEs, and Gaussian Mixture Models (GMMs). To quantitatively evaluate generative models we introduce measures of sample fidelity and diversity based on matchings between sets of point clouds. Interestingly, our evaluation of generalization, fidelity and diversity reveals that GMMs trained in the latent space of our AEs yield the best results overall.

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值