文献: Deep Learning for 3D Point Clouds: A Survey
Guo Y, Wang H, Hu Q, et al. Deep learning for 3d point clouds: A survey[J]. IEEE transactions on pattern analysis and machine intelligence, 2020.
Abstract:
三个主要任务
3D形状分类(3D shape classification),3D目标检测和跟踪(3D object detection)以及3D点云分割(3D point cloud segmentation)
-
Introduction:
3D数据提供了丰富的几何、形状和比例信息
与2D数据相比,3D数据能更好的理解环境
3D数据通常的几种表示形式:depth images(深度图), point clouds(点云),meshes(网格), and volumetric grids(体素)
point clouds 保留了三维空间中原始的几何信息,无需离散化
**挑战:**the small scale of datasets , the high dimensionality and the unstructured nature of 3D point clouds
the major contributions of this paper can be summarized as follows:
-
the first survey paper to cover deep learning methods for several important point cloud understanding tasks, including 3D shape classification, 3D object detection and tracking, and 3D point cloud segmentation.
-
specifically focus on deep learning methods for 3D point clouds rather than all types of 3D data.
-
This paper covers the most recent and advanced progresses(最新和最先进的进展) of deep learning on point clouds. Therefore, it porvides the readers with the state-of-the-art (最先进的,最高水平的) methods
语义分割、实例分割和部件分割
semantic segmentation, instance segmentation and part segmentation
-
-
Background
2.1 Datasets
- For 3D shape classification :synthetic datasets(合成数据集)and real-world datasets
- For 3D object detection and tracking : indoor scenes and outdoor urban scenes
- For 3D point cloud segmentation :these datasets are acquired by different types of sensors
2.2 Evaluation Metrics
- For 3D shape classification : Overall Accuracy(OA) and mean class accuracy(mAcc)
- For 3D object detection : Average Precision(AP)
- 略
- For 3D point cloud segmentation : OA and mean Intersection over Union (mIoU) and mAcc
-
3D Shape classification
这类的方法通常先学习 embedding of each point (每个点的嵌入),然后使用 aggregation method (聚合方法)从 whole point cloud (整个点云)中 extract a global shape embedding (提取全局形状嵌入) ,最终由几个全连接层来实现 classification (分类)
基于对每个点进行 feature learning的方式,现有的 3D shape classification methods 可分为 projection-based networks (基于投影的网络)和 point-based networks (基于点的网络)。
- Multi-view based methods (多视图的方法)
- Volumetric-based Methods(体素的方法)
- Point-based Methods
根据用于每个点的特征学习的网络体系结构,该类别中的方法可分为逐点MLP法、基于卷积的方法、基于图的方法、基于分层数据结构的方法和其他典型方法。
3.1 Pointwise MLP Methods
这类方法使用多层感知器 MLP对各个点进行独立的建模,接着使用对称的函数来集成到全局特征。
PointNet
PointNet++
以及其他基于PointNet开发的网络
3.2 Convolution-based Methods
根据卷积核的类型,三维卷积方法可以分为连续卷积方法(continuous convolution networks )和离散卷积方法(discrete convolution networks)。
3.2.1 3D Continuous Convolution Networks
3D卷积可以解释为给定子集上的加权和
MLP是学习权重的一种简单方法。作为RS-CNN[35]的核心层,RS-Conv将某个点周围的局部子集作为其输入,使用MLP的方法来进行卷积,学习低维关系到高维关系的映射。
一些方法还使用现有算法来执行卷积。
在PointConv[38]中,卷积被定义为对重要性采样的连续3D卷积的蒙特卡洛估计。卷积核由加权函数(由MLP层学到)和密度函数(由核密度估计和MLP层学到)组成。为了提升内存和计算效率,3D卷积被简化成两部分:矩阵乘法和2D卷积,在相同的参数设置下,内存消耗可减小64倍。
3.2.2 3D Discrete Convolution Networks
这类方法在标准的网格上定义卷积核,其中的邻居点的权重是其关于中心点的补偿(offset)
3.3 Graph-based Methods
基于图的网络将点云中的每个点视为图的顶点,并基于每个点的邻居为图生成有向边。然后在空间域或谱域中执行特征学习[58]
-
Graph-based Methods in Spatial Domain 空域
卷积通过在空间邻域内的MLP实现,池化操作通过集成信息产生新的较粗的图。
-
Graph-based Methods in Spectral Domain 谱域
这些方法将卷积定义为谱的滤波,将其实现为图上的信号与图的拉普拉斯矩阵的特征向量的乘法。
3.4 Hierarchical Data Structure-based Methods 基于分层数据结构的方法
略
3.5 Other Networks
略
-
3D Object detection and tracking
(后期补充)
-
3D Point cloud segmentation
3D点云分割需要理解全局几何结构和每个点的细粒度细节。
根据分类粒度,三维点云分割方法可以分为三类:语义分割(场景级)(semantic segmentation)、实例分割(对象级)(instance segmentation)和部件分割(部件级)(part segmentation)
5.1 3D Semantic Segmentation
给定一个点云,语义分割的目标是,根据语义信息,将各个点分成一定的子集。主要分为:基于投影的方法和基于离散化、基于点的和混合的方法。
5.1.1 Projection-based Methods 基于投影的方法
- Multi-view Representation 多视图表示
- Spherical Representation 球面表示
5.1.2 Discretization-based Methods 基于离散的方法
分为密集离散化和稀疏离散化。其他略
5.1.3 Hybrid Methods 混合方法
5.1.4 (重点)Point-based Methods 基于点的方法
PointNet网络是整个点特征学习的先驱,后面的网络结构均是在此基础上改进而来
PointNet提出使用共享的MLP来学习每个点的特征,并使用max pooling函数学习全局特征。
这类方法可大致分为以下几类:基于各个点的MLP方法(pointwise MLP method),基于点卷积的方法(point convolution methods),基于RNN的方法(RNN-based methods)和基于图的方法(graph-based methods)。
4.1.4.1 Pointwise MLP Methods
共享MLP作为网络的基本单元,缺点无法捕获局部特征和点与点的相互作用。从而引入了几个专用网络,基于邻域特征池化、基于注意力的汇聚和局部全局特征连接的方法。
**Neighboring feature pooling :**PointNet++ 未来客服点云的不均匀性和密度变化带来的问题,还提出了多尺度分组和多分辨率分组的策略。
PointSIFT模块来实现方向的编码和scale awareness。
K均值聚类和KNN分别定义了空域和特征域两个邻域[204]。基于来自同一类的点在特征空间中更接近的假设,引入成对距离损失和质心损失来进一步正则化特征学习。
Attention-based aggregation : 为提高分割的准确率,提出注意力的机制。
[56]提出group shuffle attention来模拟点之间的关系,并提出Gumbel Subset Sampling(GSS)来代替FPS方法。
Local-global concatenation :
4.1.4.2 Point Convolution Methods
这类方法通常试图提出在点云上进行更有效的卷积操作
4.1.4.3 RNN-based Methods :
4.1.4.4 Graph-based Methods :
使用图神经网络(Graph NETWORKS)
[203]将点云表示为一组互连的简单形状和重叠点,并使用属性有向图(即重叠点图)来捕捉结构和上下文信息。然后,将大规模点云分割问题分解为三个子问题,即几何均匀分割、超点嵌入和上下文分割。
[214]提出了一个有监督的框架来将点云过度分割成纯粹的超点
为了更好地捕捉高维空间中的局部几何关系,康等人[222]提出了一种基于图形嵌入模块(GEM)和金字塔注意网络(PAN)的金字塔方法。
在[184]中,提出Graph Attention Convolution 用来从局部相邻集合中有选择性地学习相关特征。
GEM模块将点云表示为有向无环图,并利用协方差矩阵代替欧氏距离来构造相邻相似矩阵。在PAN模块中使用四种不同大小的卷积核提取不同语义强度的特征。在[215]中,提出了图形注意卷积(GAC)来选择性地从局部邻近集中学习相关特征。
5.2 Instance Segmentation
相比于语义分割,实例分割更具有挑战性,因为需要对点进行更精确和更细粒度的推理。不仅需要区分语义不同的点,还要区分语义相同的实例
(后期再补充)
5.3 Part Segmentation
(后期补充)