pointnet

引言

本文介绍一个可以处理3D点云或格网数据的深度学习网络。为了共享权重参数和函数,卷积神经网络通常需要规则化数据输输入,比如image或3D voxels等。3D点云或格网数据并不是组织规则的数据,因此在输入深度学习网络前需要将其规则化为image或3D voxels形式。This data representation transformation, however, renders the resulting data unnecessarily voluminous-while also introducing quantization artifacts that can obscure natural invariances of the data.

因此,本文将给出一种简单的点云几何表达方式,称之为Pointnet。直接基于简单统一的点云数据深度学习将变得更加简单,避免了复杂和不规则的格网化过程。考虑到结果对点云顺序的不变形,Pointnet网络必须具备对称性。此外该网络对刚体的运动也保持不变性。Pointnet网络结构以原始点云数据作为输入,而输出整个点云的分类标签或者是每个点云的分割标签。由于初始阶段独立一致的处理方式,本文提出的网络结构十分简洁。每个点云使用三维坐标(x,y,z)表示。Additional dimensions may be added by computing normals and other local or global features.

本文方法的关键就是使用一个对称函数,最大池化层(max pooling)。Effectively the network learns a set of optimization functions/criteria that select interesting or informative points of the point cloud and encode the reason for their selection. 网络全连接层进一步压缩学到的信息为一个整体特征用于分类或分割任务中。

首先对输入点云进行仿射变换。为了保证Pointnet处理效果,我们通过一个空间转换网络(spatial transformer network)对数据进行规范化。

本文给出了该方法的理论分析和实验评估。我们的网络可以近似任何一组连续函数。有趣的是,Pointnet可以对输入点云数据总结出一组稀疏的关键点,对这些关键点可视化可以发现这些点就是物体的骨架。理论分析也证明了Pointnet为何对点云顺序及点云的粗差和缺失不敏感。

在分类,分割等任务数据集上,对Pointnet和基于multi-view,volumetric的最先进方法进行了对比。基于简单的网络结构,Pointnet运算速度快,结果好。

本文贡献:

  • 设计了可以处理无序点云数据的深度学习网络
  • 如何训练这么一个网络
  • 理论和实验分析了该方法的高效和可靠
  • 对其性能进行了直观的解释

针对无序点云的神经网络是很常见的问题,希望本文的思路也可以应用到更多的领域中。

针对特定任务的点云特征大多是人工设计的。点云特征代表着某些点云统计特性,具有对transforation的不变性,which are typically classified as intrinsic [2, 24, 3] or extrinsic [20, 19, 14, 10, 5]. 这些特征又可以分为局部特征和全局特征。对于某一特定任务,找到最佳的特征组合并非易事。

3D 数据有多种流行的表示方法用于深度学习。Volumetric CNNs:是三维卷积神经网络应用于体素化形状的先驱。fpnn[13]和vote3d[26]提出了处理点云稀疏性问题的特殊方法;however,their operations are still on sparse volumes, it’s challenging for them to process very large point clouds. Multiview CNNs: 尝试将三维点云或形状渲染为二维图像,然后应用二维conv网络对其进行分类。通过精心设计的图像CNN,这一类方法在图像分类及检索任务重取得了优异的表现。但是,将它们扩展到场景理解或其他3D任务(如点分类和形状补全)并非易事。Spectral CNNs:基于网格的光谱CNN,仅限于类似有机体的流形格网上,并不能将其应用到非等距物体上(家具)。Feature-based DNNs: 将3D数据转为vector,提取特征,然后使用全连接网络对形状进行分类。该方法受限于特征的表达权。
从数据结构的角度来看,点云是一组无序的向量。虽然大多数深度学习的工作都集中在常规的输入表示上,比如序列(在语音和语言处理中)、图像和体积(视频或三维数据),但是在点云的深度学习中没有做太多的工作。
Oriol Vinyals等人[25]最近的一项研究探讨了这个问题。他们使用一个具有注意机制的读-写网络来处理无序的输入集,并表明他们的网络具有对数字排序的能力。然而,由于他们的工作集中在通用集和NLP应用程序上,因此在点云中缺少几何因素。

问题描述

本设计了一个直接处理无序点云的深度学习网络。3D点云表示为 P i ∣ i = 1 , 2 , . . . , n {P_i|i=1,2,...,n} Pii=1,2,...,n,其中 P i = ( x , y , z ) P_i=(x,y,z) Pi=(x,y,z),有的还包含颜色或者法向等其他通道。如无特殊说明,本文点云就指 ( x , y , z ) (x,y,z) (x,y,z)

对于对象分类任务,输入点云可以直接从形状采样,也可以从场景点云预分段。我们提出的深层网络输出所有K类对象的K个分数。对于语义分割,输入可以是用于部分区域分割的单个对象,也可以是用于对象区域分割的三维场景的子体积。我们的模型将为n个点的m个语义子类别输出n×m分数。

Properties of Point Sets

  • 无序性

PointNet Architecture

  • 最大池化层:
  • 局部特征和全局特征聚合层:
  • 对齐层

https://blog.csdn.net/weixin_36662031/article/details/83584670

https://www.codetd.com/article/3632725 PointNet学习笔记

http://www.qingpingshan.com/bc/jsp/312328.html

https://www.cnblogs.com/lainey/p/8617667.html

https://blog.csdn.net/wishchin/article/details/79657645

https://zhuanlan.zhihu.com/p/57761392

https://zhuanlan.zhihu.com/p/55216158

https://www.zhihu.com/question/276671580/answer/403563637

https://zhuanlan.zhihu.com/p/44809266

https://www.meteorshub.com/machine-learning/2017/12/188/

https://blog.csdn.net/weixin_36662031/article/details/83584670

https://blog.csdn.net/u014636245/article/details/82763269 三维点云网络PointNet——模型及代码分析

http://nooverfit.com/wp/cvpr-2017之cnn论文精选-pointnet:端到端3d图像点集分类与分割/

https://blog.csdn.net/hongbin_xu/article/details/84638109

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值