1.介绍
三维点云处理通常被认为比二维图像更具挑战性,这主要是因为点云样本存在于不规则的结构上,而二维图像样本(像素)依赖于图像平面上具有规则间距的2D网格。点云几何通常由一组稀疏的三维点表示。这种数据格式使得传统的深度学习框架难以应用。例如:对于每个样本,传统的卷积神经网络(CNN)要求相邻样本出现在一定的空间方向和距离上,以便于卷积。点云通常不遵循这样的约束。之前的方法大都是将三维空间划分为规则体素和将二维CNN扩展到体素,基于体素的网络的主要问题是随着空间分辨率的提高,神经网络规模的快速增长,自从pointnet出来之后呢,大家都开始直接对三维点云进行处理啦!
这篇文章主要提出了一种称为FoldingNet的自动编码器(AE)。自动编码器中瓶颈层的输出称为codeword,可用作输入点云的高维嵌入。解码器部分是基于折叠操作把2D网格变形到点云的表面。
这主要是依据任何三维物体表面都可以通过切割、压缩和拉伸等操作转换成二维平面。逆过程是通过一定的折叠操作将二维点样本粘合回物体表面,并将其初始化为二维网格样本。这个逆过程也就是本文进行重建的主要操作。
然后具体的看一下折叠操作,就是下面表1中展示的。它主要是进行了两次折叠,在解码器中直接引入这样一个隐式2D网格约束,解决了点云不规则结构的问题,文章也提到了只要有适当的codeword,折叠操作就可以构建任意曲面。
第一列包含来自ShapeNet数据集的原始点云样本。第二列说明在解码过程中要折叠的2D网格点。第三列包含一次折叠操作后的输出。第四列包含两个折叠操作后的输出。这个输出也是重构的点云。
虽然说重建的结果很好,但是我觉得折叠的操作就是解码器部分还是比较简单的,后面也会具体介绍,所以我觉得主要是前面这个提特征的网络特别好,才使得后面的重建结果好。
总的来说,文章的贡献点就是
- 训练的是一种端到端的深层自动编码器,它直接消耗无序的点云。
- ·提出了一种新的解码操作-折叠,理论上证明了它在点云重建中是通用的,同时为重构提供命令。
- ·在主要数据集上的实验表明,与其他无监督方法相比,折叠方法可以获得更高的分类精度。
2.点云上的FoldingNet自动编码器
自动编码器的结构如图1所示。编码器的输入是n乘3矩阵.矩阵的每一行由三维位置(x,y,z