pointnet

最新推荐文章于 2022-09-14 09:11:58 发布

xiaoooli

最新推荐文章于 2022-09-14 09:11:58 发布

阅读量202

点赞数

分类专栏：个人笔记

个人笔记专栏收录该内容

20 篇文章 0 订阅

订阅专栏

引言

本文介绍一个可以处理3D点云或格网数据的深度学习网络。为了共享权重参数和函数，卷积神经网络通常需要规则化数据输输入，比如image或3D voxels等。3D点云或格网数据并不是组织规则的数据，因此在输入深度学习网络前需要将其规则化为image或3D voxels形式。This data representation transformation, however, renders the resulting data unnecessarily voluminous-while also introducing quantization artifacts that can obscure natural invariances of the data.

因此，本文将给出一种简单的点云几何表达方式，称之为Pointnet。直接基于简单统一的点云数据深度学习将变得更加简单，避免了复杂和不规则的格网化过程。考虑到结果对点云顺序的不变形，Pointnet网络必须具备对称性。此外该网络对刚体的运动也保持不变性。Pointnet网络结构以原始点云数据作为输入，而输出整个点云的分类标签或者是每个点云的分割标签。由于初始阶段独立一致的处理方式，本文提出的网络结构十分简洁。每个点云使用三维坐标(x,y,z)表示。Additional dimensions may be added by computing normals and other local or global features.

本文方法的关键就是使用一个对称函数，最大池化层(max pooling)。Effectively the network learns a set of optimization functions/criteria that select interesting or informative points of the point cloud and encode the reason for their selection. 网络全连接层进一步压缩学到的信息为一个整体特征用于分类或分割任务中。

首先对输入点云进行仿射变换。为了保证Pointnet处理效果，我们通过一个空间转换网络(spatial transformer network)对数据进行规范化。

本文给出了该方法的理论分析和实验评估。我们的网络可以近似任何一组连续函数。有趣的是，Pointnet可以对输入点云数据总结出一组稀疏的关键点，对这些关键点可视化可以发现这些点就是物体的骨架。理论分析也证明了Pointnet为何对点云顺序及点云的粗差和缺失不敏感。

在分类，分割等任务数据集上，对Pointnet和基于multi-view，volumetric的最先进方法进行了对比。基于简单的网络结构，Pointnet运算速度快，结果好。

本文贡献：

设计了可以处理无序点云数据的深度学习网络
如何训练这么一个网络
理论和实验分析了该方法的高效和可靠
对其性能进行了直观的解释

针对无序点云的神经网络是很常见的问题，希望本文的思路也可以应用到更多的领域中。

针对特定任务的点云特征大多是人工设计的。点云特征代表着某些点云统计特性，具有对transforation的不变性，which are typically classified as intrinsic [2, 24, 3] or extrinsic [20, 19, 14, 10, 5]. 这些特征又可以分为局部特征和全局特征。对于某一特定任务，找到最佳的特征组合并非易事。

3D 数据有多种流行的表示方法用于深度学习。Volumetric CNNs：是三维卷积神经网络应用于体素化形状的先驱。fpnn[13]和vote3d[26]提出了处理点云稀疏性问题的特殊方法；however,their operations are still on sparse volumes, it’s challenging for them to process very large point clouds. Multiview CNNs: 尝试将三维点云或形状渲染为二维图像，然后应用二维conv网络对其进行分类。通过精心设计的图像CNN，这一类方法在图像分类及检索任务重取得了优异的表现。但是，将它们扩展到场景理解或其他3D任务（如点分类和形状补全）并非易事。Spectral CNNs:基于网格的光谱CNN，仅限于类似有机体的流形格网上，并不能将其应用到非等距物体上(家具)。Feature-based DNNs: 将3D数据转为vector，提取特征，然后使用全连接网络对形状进行分类。该方法受限于特征的表达权。
从数据结构的角度来看，点云是一组无序的向量。虽然大多数深度学习的工作都集中在常规的输入表示上，比如序列（在语音和语言处理中）、图像和体积（视频或三维数据），但是在点云的深度学习中没有做太多的工作。
Oriol Vinyals等人[25]最近的一项研究探讨了这个问题。他们使用一个具有注意机制的读-写网络来处理无序的输入集，并表明他们的网络具有对数字排序的能力。然而，由于他们的工作集中在通用集和NLP应用程序上，因此在点云中缺少几何因素。