论文点云:基于深度学习的点云分类和切割

作者

Charles R. Qi Li Yi Hao Su Leonidas J. Guibas
Stanford University

摘要

对于有关于点云处理方面的深度学习著作少之又少。PointNet[20] 是这方面的先驱。通过设计点网无法捕获由度量空间点所产生的局部结构,从而限制了其识别细粒度模式的能力以及对复杂场景的通用性。本文介绍了一种分层神经网络,它将点云递归的应用到输入点云集,利用度量空间的划分不断的学习上下文范围的学习特征。实验表明本文提出的PointNet网络可以高效的学习深层点集特征。
关于PointNet 的论文翻译可以参见这篇博客‘’

https://blog.csdn.net/qq_40196164/article/details/85834382

面对的问题

假设x=(M,d)是一个离散度量空间,其度量继承自欧几里德空间Rn,其中M⊆Rn是点集,Dis是距离度量。此外,环境欧几里德空间中M的密度可能并非处处均匀。我们感兴趣的是学习集函数,它将这些函数作为输入(以及每个点的附加特性),并生成语义兴趣的信息。实际上,这样的函数可以是为M的每个成员指定标签的分类函数,也可以是为M的每个成员指定逐点标签的分段函数。

方法

本文的文章可以看做是PointNet的扩展,增加了层次的结构。本文可以在非均匀的采样点集中稳健地学习特征。

对PointNet的回顾:一种通用的连续函数逼近器

给定具有xi的无序点集{x1,x2,…,xn}∈Rd,可以定义一组函数f:X→将一组点映射到向量的R:
在这里插入图片描述
在这里插入图片描述
图二,以欧几里得空间中的点为例,说明了分层特征学习体系框架在集合分割和分类中的应用。PointNet在一些基准测试中取得了令人印象深刻的性能。然而,它缺乏在不同尺度上捕获本地上下文的能力。在下一节中,我们将介绍一个分层特征学习框架来解决这个局限性。

分层点集功能学习

不同于PointNet使用单个的MaxPooling操作来聚合整个点集,但是新的网络结构构建了点的分层分组,并且沿分层结构逐步抽象出更大的局部区域。我们的层次结构由多个集合抽象级别组成(图2)。在每一个层次上,对一组点进行处理和抽象,以生成一个包含较少元素的新集合。
集合抽象层由三个关键层组成:采样层、分组层和点网层。采样层从输入点中选择一组点,定义局部区域的质心。分组层然后通过查找质心周围的“相邻”点来构造局部区域集。点网层是一个小型点网,用于将局部区域模式编码为特征向量。
采样层
给定输入点{x1,x2,…,xn},我们使用迭代最远点采样(FPS)来选择点{xi1,xi2,…,xim}的子集,使得xijis是距离集{xi1,xi2,…,xij最远的点(度量距离)−1} 关于其余的几点。与随机抽样相比,在质心数相同的情况下,该方法对整个点集具有更好的覆盖率。与扫描数据分布不可知的向量空间的CNN不同,我们的采样策略以数据依赖的方式生成感受野。
分类层
该层的输入是sizeN×(dc)的点集和N*(d+c)的一组质心的坐标。输出是一组Nk(d+c)的点集,其中每一组都对应一个局部区域,并表示质心附近的点数。后续的PointNet层可以将复杂的点转化为固定长度的局部特征向量。
PointNet层
在该层中,输入数据大小为N×K×(d+c)的点的N个局部区域。输出中的每个局部区域由其质心和对质心邻域进行编码的局部特征提取。输出数据大小为N×(d+c)。

非均匀采样密度下的鲁棒特征学习

点集在不同区域的密度不同是很常见的,这就给点集的特征学习带来了很大的挑战。密集数据中学习到的特征可能不可以应用到稀疏采样区域。因此稀疏点云训练的模型可能无法识别细节的局部特征。
在最理想的情况下,我们尽可能的近距离检查点集,用以捕捉到最精细的细节。但是,在低密度的区域采样,会应为取样不足破坏局部特征,在这种情况下,我们应该在更大的范围内寻找更大的尺度模式,为了实现这一个目标,本文提出了两种密度自适应网络。
在这里插入图片描述

Multi-scale grouping (MSG).
如图3(a)所示,捕获多尺度模式的一种简单但有效的方法是应用具有不同尺度的分组层,然后根据点网提取每个尺度的特征。将不同比例的特征连接起来以形成多比例特征。我们训练网络学习一种优化策略,以结合多尺度特征。这是通过对每个实例以随机概率随机删除输入点来实现的,我们称之为随机输入删除。具体来说,对于每个训练点集,我们选择从[0,p]中均匀采样的辍学率θ,其中p≤1.对于每个点,我们随机丢弃一个概率为θ的点。实际上,我们设置p=0。95以避免生成空点集。在此过程中,我们为网络提供了各种稀疏性(由θ引起)和不同均匀性(由辍学中的随机性引起)的训练集。在测试期间,我们保留所有可用点
Multi-resolution grouping (MRG
上面的MSG方法计算成本很高,因为它在大规模邻域中为每个质心点运行本地点网。特别是,由于质心点的数量在最低级别通常相当大,因此时间成本非常大。在这里,我们提出了一种替代方法,避免了这种昂贵的计算,但仍然保留了根据点的分布特性自适应聚合信息的能力。在图3(b)中,某个级别的区域的特征是两个向量的串联。一个向量(图中左图)是通过汇总下一层中每个子区域的特征得到的−1使用设置的抽象级别。另一个向量(右)是通过使用单个点网直接处理局部区域中的所有原始点而获得的特征。
当局部区域的密度较低时,第一向量可能不如第二向量可靠,因为计算第一向量时的子区域包含更稀疏的点,并且遭受更多的采样不足。在这种情况下,第二个向量的权重应该更高。另一方面,当局部区域的密度较高时,第一个向量提供更精细细节的信息,因为它具有在较低级别以较高分辨率递归检查的能力。与MSG相比,该方法在计算效率上更高,因为我们避免了在大规模邻域的最低级别上进行特征提取。

集合分割中的点特征传播

在抽象层,对原始点集进行二次抽样,然而,在语义点标注等集合分割任务中,我们需要获取所有原始点的点特征。一种解决方案是在所有集合抽象级别中始终将所有点作为质心进行采样。另一种是将特征从子采样点传播到原始点。
我们采用基于距离的插值和跨级别跳过链接的分层传播策略(如图2所示)。在特征传播级别,我们从Ni×(D+C)点到Ni-1传播点特征点,其中和Ni≤Nl−1) 是集合抽象级别的输入和输出的点集大小。我们通过在坐标处插值点的特征值来实现特征传播−1分。在众多插值选择中,我们使用基于k-最近邻域的逆距离加权平均(如等式2所示,默认情况下,我们使用p=2,k=3)。Ni上的插值特征然后将点与集合抽象级别中的跳过链接点要素连接起来。然后将连接的特征通过一个“单位点网”,这类似于CNN中的逐点卷积。应用几个共享的完全连接和ReLU层来更新每个点的特征向量。重复该过程,直到将特征传播到原始点集。

实验

数据集
我们评估了四个数据集,从2D对象(MNIST[11])、3D对象(ModelNet40[31]刚性对象、SHREC15[12]非刚性对象)到真实3D场景(ScanNet[5])。目标分类通过准确度进行评估。语义场景标记根据[5]的平均体素分类精度进行评估。我们在下面列出了每个数据集的实验设置:
•MNIST:具有60k训练和10k测试样本的手写数字图像。•ModelNet40:40个类别的CAD模型(主要是人造的)。我们使用官方分割法,9843个形状用于培训,2468个形状用于测试SHREC15:50个类别的1200个形状。每个类别包含24个形状,这些形状大多是具有各种姿势的有机形状,如马、猫等。我们使用五重交叉验证来获得该数据集的分类精度扫描网:1513扫描和重建的室内场景。我们按照[5]中的实验设置,使用1201个场景进行训练,使用312个场景进行测试。

欧式度量空间中的点集分类

我们对从2D(MNIST)和3D(ModleNet40)欧氏空间采样的点云进行分类,评估我们的网络。MNIST图像将转换为数字像素位置的二维点云。三维点云从ModelNet40形状的网格曲面采样。默认情况下,MNIST使用512点,ModelNet40使用1024点。在表2中的最后一行(我们的法线),我们使用面法线作为额外的点特征,其中我们还使用更多的点(N=5000)来进一步提高性能。所有点集均标准化为零均值,且在一个单位球内。我们使用三个完全连接的层1的三级分层网络。
结果
在表1和表2中,我们将我们的方法与一组具有代表性的先前最新技术进行了比较。请注意,表2中的PointNet(vanilla)是[20]中不使用转换网络的版本,这相当于我们只有一个级别的分层网络。
在这里插入图片描述
图4:左:具有随机点丢失的点云。右:曲线显示我们的密度自适应策略在处理非均匀密度方面的优势
对采样密度变化的鲁棒性 直接从真实世界捕获的传感器数据通常存在严重的不规则采样问题(图1)。我们的方法选择多尺度的点邻域,并通过适当加权来平衡描述性和鲁棒性。

语义场景标注中的点集分割

为了验证我们的方法适用于大规模点云分析,我们还对语义场景标记任务进行了评估。目标是预测室内扫描点的语义对象标签。[5] 在体素化扫描上使用完全卷积神经网络提供基线。它们完全依赖于扫描几何体,而不是RGB信息,并基于每个体素报告精度。为了进行公平的比较,我们在所有实验中删除了RGB信息,并将点云标签预测转换为体素标签[5]。我们还与[20]进行了比较。图5(蓝色条)以每个体素为基础报告精度。
对采样密度变化的鲁棒性为了测试我们训练的模型在非均匀采样密度下的扫描表现如何,我们合成了与图1相似的Scannet场景的虚拟扫描,并根据该数据评估我们的网络。关于如何生成虚拟扫描,我们建议读者参阅补充材料。我们在三种情况下(SSG, MSG+DP, MRG+DP)评估我们的框架,并与基线方法[20]进行比较。
在这里插入图片描述
性能对比如图5(黄条)所示。我们看到,由于采样密度从均匀点云向虚拟扫描场景转移,SSG性能大大下降。而MRG网络在采样稀疏时能够自动切换到粒度较粗的特征,因此对采样密度的偏移具有更强的鲁棒性。尽管训练数据(均匀点随机dropout)与非均匀密度的扫描数据之间存在域差距,但我们的MSG网络受到的影响较小,在比较方法中准确率最高。这证明了我们的密度自适应层设计的有效性。

非欧几里得度量空间中的点集分类

在这一节中,我们展示了我们的方法对非欧几里得空间的推广。在非刚性形状分类(图7)中,一个好的分类器应该能够将图7中的(a)和©正确地分类为同一类别,即使它们的姿态不同,这需要内在结构知识。SHREC15中的形状是嵌入在3D空间中的2D表面。沿着表面的测地线距离自然地产生一个度量空间。我们通过实验表明,在这个度量空间中采用PointNet++是捕获底层点集内在结构的有效方法。
在这里插入图片描述
结果 我们将我们的方法与表3中先前最先进的[14]方法进行了比较。[14]提取测地矩作为形状特征,并使用堆叠稀疏自动编码器对这些特征进行消化,以预测形状类别。我们的方法使用非欧几里得度量空间和内在特征在所有设置中获得最佳性能,并大大优于[14]。
比较我们方法的第一和第二种设置,我们看到内在特征对非刚性形状分类非常重要。XY Zfeature不能揭示其内在结构,受位姿变化的影响较大。比较我们方法的第二和第三种设置,我们看到使用测地线邻域比使用欧几里得邻域更有益。欧几里得邻域可能包括表面上很远的点,当形状产生非刚性变形时,这个邻域可能会发生巨大的变化。这给有效的权值分配带来了困难,因为局部结构可能会变得组合复杂。曲面上的测地线邻域解决了这一问题,提高了学习效率。
在这里插入图片描述

结论

在这项工作中,我们提出PointNet++,一个强大的神经网络体系结构,用于处理在度量空间中采样的点集。PointNet++递归函数对输入点集的嵌套划分,并有效地学习关于距离度量的层次特征。为了解决非均匀点采样问题,我们提出了两个新的集合抽象层,根据局部点密度智能地聚合多尺度信息。这些贡献使我们能够在具有挑战性的3D点云基准上实现最先进的性能。
未来,如何通过在每个局部区域共享更多的计算来提高网络的推理速度,尤其是对MSG和MRG层的推理速度,是值得思考的问题。同样有趣的是,在高维度量空间中,基于CNN的方法在计算上是不可行的,而我们的方法可以很好地扩展。

思考

复杂场景点云一般采用PointNet++进行处理,而简单场景点云则采用PointNet。
如果只从点云分类和分割两个任务角度分析,分类任务只需要max pooling操作之后的特征信息就可完成,而分割任务则需要更加详细的local context信息。

引用

[1]M. Aubry, U. Schlickewei, and D. Cremers. The wave kernel signature: A quantum mechanical approach
to shape analysis. InComputer Vision Workshops (ICCV Workshops), 2011 IEEE International Conference
on, pages 1626–1633. IEEE, 2011.
[2]D. Belton and D. D. Lichti. Classification and segmentation of terrestrial laser scanner point clouds using
local variance information.Iaprs, Xxxvi, 5:44–49, 2006.
[3]J. Bruna, W. Zaremba, A. Szlam, and Y . LeCun. Spectral networks and locally connected networks on
graphs.arXiv preprint arXiv:1312.6203, 2013.
[4]A. X. Chang, T. Funkhouser, L. Guibas, P . Hanrahan, Q. Huang, Z. Li, S. Savarese, M. Savva, S. Song,
H. Su, J. Xiao, L. Yi, and F. Y u. ShapeNet: An Information-Rich 3D Model Repository. Technical Report
arXiv:1512.03012 [cs.GR], 2015.
[5]A. Dai, A. X. Chang, M. Savva, M. Halber, T. Funkhouser, and M. Nießner. Scannet: Richly-annotated 3d
reconstructions of indoor scenes.arXiv preprint arXiv:1702.04405, 2017.
[6]J. Demantké, C. Mallet, N. David, and B. V allet. Dimensionality based scale selection in 3d lidar point
clouds.The International Archives of the Photogrammetry, Remote Sensing and Spatial Information
Sciences, 38(Part 5):W12, 2011.
[7]A. Gressin, C. Mallet, J. Demantké, and N. David. Towards 3d lidar point cloud registration improvement
using optimal neighborhood knowledge.ISPRS journal of photogrammetry and remote sensing, 79:240–
251, 2013.
[8]K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. InProceedings of the
IEEE Conference on Computer Vision and Pattern Recognition, pages 770–778, 2016.
[9]D. Kingma and J. Ba. Adam: A method for stochastic optimization.arXiv preprint arXiv:1412.6980.
[10]A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural
networks. InAdvances in neural information processing systems, pages 1097–1105, 2012.
[11]Y . LeCun, L. Bottou, Y . Bengio, and P . Haffner. Gradient-based learning applied to document recognition.
Proceedings of the IEEE, 86(11):2278–2324, 1998.
[12]Z. Lian, J. Zhang, S. Choi, H. ElNaghy, J. El-Sana, T. Furuya, A. Giachetti, R. A. Guler, L. Lai, C. Li,
H. Li, F. A. Limberger, R. Martin, R. U. Nakanishi, A. P . Neto, L. G. Nonato, R. Ohbuchi, K. Pevzner,
D. Pickup, P . Rosin, A. Sharf, L. Sun, X. Sun, S. Tari, G. Unal, and R. C. Wilson. Non-rigid 3D Shape
Retrieval. In I. Pratikakis, M. Spagnuolo, T. Theoharis, L. V . Gool, and R. V eltkamp, editors,Eurographics
Workshop on 3D Object Retrieval. The Eurographics Association, 2015.
[13]M. Lin, Q. Chen, and S. Yan. Network in network.arXiv preprint arXiv:1312.4400, 2013.
[14]L. Luciano and A. B. Hamza. Deep learning with geodesic moments for 3d shape classification.Pattern
Recognition Letters, 2017.
[15]J. Masci, D. Boscaini, M. Bronstein, and P . V andergheynst. Geodesic convolutional neural networks
on riemannian manifolds. InProceedings of the IEEE International Conference on Computer Vision
Workshops, pages 37–45, 2015.
[16]M. Meyer, M. Desbrun, P . Schröder, A. H. Barr, et al. Discrete differential-geometry operators for
triangulated 2-manifolds.Visualization and mathematics, 3(2):52–58, 2002.
[17]N. J. MITRA, A. NGUYEN, and L. GUIBAS. Estimating surface normals in noisy point cloud data.
International Journal of Computational Geometry & Applications, 14(04n05):261–276, 2004.
[18]I. Occipital. Structure sensor-3d scanning, augmented reality, and more for mobile devices, 2016.
[19]M. Pauly, L. P . Kobbelt, and M. Gross. Point-based multiscale surface representation.ACM Transactions
on Graphics (TOG), 25(2):177–193, 2006.
[20]C. R. Qi, H. Su, K. Mo, and L. J. Guibas. Pointnet: Deep learning on point sets for 3d classification and
segmentation.arXiv preprint arXiv:1612.00593, 2016.
[21]C. R. Qi, H. Su, M. Nießner, A. Dai, M. Yan, and L. Guibas. V olumetric and multi-view cnns for object
classification on 3d data. InProc. Computer Vision and Pattern Recognition (CVPR), IEEE, 2016.
[22]G. Riegler, A. O. Ulusoys, and A. Geiger. Octnet: Learning deep 3d representations at high resolutions.
arXiv preprint arXiv:1611.05009, 2016.
[23]R. M. Rustamov, Y . Lipman, and T. Funkhouser. Interior distance using barycentric coordinates. In
Computer Graphics F orum, volume 28, pages 1279–1288. Wiley Online Library, 2009.
[24]P . Y . Simard, D. Steinkraus, and J. C. Platt. Best practices for convolutional neural networks applied to
visual document analysis. InICDAR, volume 3, pages 958–962, 2003.
[25]K. Simonyan and A. Zisserman. V ery deep convolutional networks for large-scale image recognition.
arXiv preprint arXiv:1409.1556, 2014.
[26]H. Su, S. Maji, E. Kalogerakis, and E. G. Learned-Miller. Multi-view convolutional neural networks for 3d
shape recognition. InProc. ICCV , to appear, 2015.
[27]J. Sun, M. Ovsjanikov, and L. Guibas. A concise and provably informative multi-scale signature based on
heat diffusion. InComputer graphics forum, volume 28, pages 1383–1392. Wiley Online Library, 2009.
[28]O. Vinyals, S. Bengio, and M. Kudlur. Order matters: Sequence to sequence for sets.arXiv preprint
arXiv:1511.06391, 2015.
9
[29]P .-S. W ANG, Y . LIU, Y .-X. GUO, C.-Y . SUN, and X. TONG. O-cnn: Octree-based convolutional neural
networks for 3d shape analysis. 2017.
[30]M. Weinmann, B. Jutzi, S. Hinz, and C. Mallet. Semantic point cloud interpretation based on optimal
neighborhoods, relevant features and efficient classifiers.ISPRS Journal of Photogrammetry and Remote
Sensing, 105:286–304, 2015.
[31]Z. Wu, S. Song, A. Khosla, F. Y u, L. Zhang, X. Tang, and J. Xiao. 3d shapenets: A deep representation for
volumetric shapes. InProceedings of the IEEE Conference on Computer Vision and Pattern Recognition,
pages 1912–1920, 2015.
[32]L. Yi, V . G. Kim, D. Ceylan, I.-C. Shen, M. Yan, H. Su, C. Lu, Q. Huang, A. Sheffer, and L. Guibas. A
scalable active framework for region annotation in 3d shape collections.SIGGRAPH Asia, 2016.
[33]L. Yi, H. Su, X. Guo, and L. Guibas. Syncspeccnn: Synchronized spectral cnn for 3d shape segmentation.
arXiv preprint arXiv:1612.00606, 2016.

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值