文献阅读: Deep Learning for 3D Point Clouds: A Survey

最新推荐文章于 2023-05-11 19:28:44 发布

给个编制

最新推荐文章于 2023-05-11 19:28:44 发布

阅读量349

点赞数

分类专栏：文献阅读文章标签： 3d 深度学习

本文链接：https://blog.csdn.net/weixin_43540533/article/details/111715379

版权

文献阅读专栏收录该内容

37 篇文章 7 订阅

订阅专栏

文献: Deep Learning for 3D Point Clouds: A Survey

Guo Y, Wang H, Hu Q, et al. Deep learning for 3d point clouds: A survey[J]. IEEE transactions on pattern analysis and machine intelligence, 2020.

Abstract：

三个主要任务

3D形状分类（3D shape classification）,3D目标检测和跟踪（3D object detection）以及3D点云分割（3D point cloud segmentation）

Introduction:

3D数据提供了丰富的几何、形状和比例信息

与2D数据相比，3D数据能更好的理解环境

3D数据通常的几种表示形式：depth images（深度图）, point clouds（点云），meshes（网格）， and volumetric grids（体素）

point clouds 保留了三维空间中原始的几何信息，无需离散化

**挑战：**the small scale of datasets , the high dimensionality and the unstructured nature of 3D point clouds

the major contributions of this paper can be summarized as follows:
- the first survey paper to cover deep learning methods for several important point cloud understanding tasks, including 3D shape classification, 3D object detection and tracking, and 3D point cloud segmentation.
- specifically focus on deep learning methods for 3D point clouds rather than all types of 3D data.
- This paper covers the most recent and advanced progresses(最新和最先进的进展) of deep learning on point clouds. Therefore, it porvides the readers with the state-of-the-art (最先进的，最高水平的) methods
语义分割、实例分割和部件分割

semantic segmentation, instance segmentation and part segmentation
Background

2.1 Datasets
- For 3D shape classification ：synthetic datasets（合成数据集）and real-world datasets
- For 3D object detection and tracking : indoor scenes and outdoor urban scenes
- For 3D point cloud segmentation ：these datasets are acquired by different types of sensors
2.2 Evaluation Metrics
- For 3D shape classification : Overall Accuracy(OA) and mean class accuracy(mAcc)
- For 3D object detection : Average Precision(AP)
- 略
- For 3D point cloud segmentation : OA and mean Intersection over Union (mIoU) and mAcc
3D Shape classification

这类的方法通常先学习 embedding of each point （每个点的嵌入），然后使用 aggregation method （聚合方法）从 whole point cloud （整个点云）中 extract a global shape embedding （提取全局形状嵌入），最终由几个全连接层来实现 classification （分类）

基于对每个点进行 feature learning的方式，现有的 3D shape classification methods 可分为 projection-based networks （基于投影的网络）和 point-based networks （基于点的网络）。
- Multi-view based methods (多视图的方法)
- Volumetric-based Methods(体素的方法)
- Point-based Methods
根据用于每个点的特征学习的网络体系结构，该类别中的方法可分为逐点MLP法、基于卷积的方法、基于图的方法、基于分层数据结构的方法和其他典型方法。

3.1 Pointwise MLP Methods

这类方法使用多层感知器 MLP对各个点进行独立的建模，接着使用对称的函数来集成到全局特征。

PointNet

PointNet++

以及其他基于PointNet开发的网络

3.2 Convolution-based Methods

根据卷积核的类型，三维卷积方法可以分为连续卷积方法（continuous convolution networks ）和离散卷积方法（discrete convolution networks）。

3.2.1 3D Continuous Convolution Networks

3D卷积可以解释为给定子集上的加权和

MLP是学习权重的一种简单方法。作为RS-CNN[35]的核心层，RS-Conv将某个点周围的局部子集作为其输入，使用MLP的方法来进行卷积，学习低维关系到高维关系的映射。

一些方法还使用现有算法来执行卷积。

在PointConv[38]中，卷积被定义为对重要性采样的连续3D卷积的蒙特卡洛估计。卷积核由加权函数（由MLP层学到）和密度函数（由核密度估计和MLP层学到）组成。为了提升内存和计算效率，3D卷积被简化成两部分：矩阵乘法和2D卷积，在相同的参数设置下，内存消耗可减小64倍。

3.2.2 3D Discrete Convolution Networks

这类方法在标准的网格上定义卷积核，其中的邻居点的权重是其关于中心点的补偿（offset）

3.3 Graph-based Methods

基于图的网络将点云中的每个点视为图的顶点，并基于每个点的邻居为图生成有向边。然后在空间域或谱域中执行特征学习[58]
- Graph-based Methods in Spatial Domain 空域
  
  卷积通过在空间邻域内的MLP实现，池化操作通过集成信息产生新的较粗的图。
- Graph-based Methods in Spectral Domain 谱域
  
  这些方法将卷积定义为谱的滤波，将其实现为图上的信号与图的拉普拉斯矩阵的特征向量的乘法。
3.4 Hierarchical Data Structure-based Methods 基于分层数据结构的方法

略

3.5 Other Networks

略
3D Object detection and tracking

(后期补充)
3D Point cloud segmentation

3D点云分割需要理解全局几何结构和每个点的细粒度细节。

根据分类粒度，三维点云分割方法可以分为三类：语义分割（场景级）（semantic segmentation）、实例分割（对象级）（instance segmentation）和部件分割（部件级）（part segmentation）

5.1 3D Semantic Segmentation

给定一个点云，语义分割的目标是，根据语义信息，将各个点分成一定的子集。主要分为：基于投影的方法和基于离散化、基于点的和混合的方法。

5.1.1 Projection-based Methods 基于投影的方法
- Multi-view Representation 多视图表示
- Spherical Representation 球面表示
5.1.2 Discretization-based Methods 基于离散的方法

分为密集离散化和稀疏离散化。其他略

5.1.3 Hybrid Methods 混合方法

5.1.4 （重点）Point-based Methods 基于点的方法

PointNet网络是整个点特征学习的先驱，后面的网络结构均是在此基础上改进而来

PointNet提出使用共享的MLP来学习每个点的特征，并使用max pooling函数学习全局特征。

这类方法可大致分为以下几类：基于各个点的MLP方法(pointwise MLP method)，基于点卷积的方法(point convolution methods)，基于RNN的方法(RNN-based methods)和基于图的方法(graph-based methods)。

4.1.4.1 Pointwise MLP Methods

共享MLP作为网络的基本单元，缺点无法捕获局部特征和点与点的相互作用。从而引入了几个专用网络，基于邻域特征池化、基于注意力的汇聚和局部全局特征连接的方法。

**Neighboring feature pooling ：**PointNet++ 未来客服点云的不均匀性和密度变化带来的问题，还提出了多尺度分组和多分辨率分组的策略。

PointSIFT模块来实现方向的编码和scale awareness。

K均值聚类和KNN分别定义了空域和特征域两个邻域[204]。基于来自同一类的点在特征空间中更接近的假设，引入成对距离损失和质心损失来进一步正则化特征学习。

Attention-based aggregation : 为提高分割的准确率，提出注意力的机制。

[56]提出group shuffle attention来模拟点之间的关系，并提出Gumbel Subset Sampling(GSS)来代替FPS方法。

Local-global concatenation :

4.1.4.2 Point Convolution Methods

这类方法通常试图提出在点云上进行更有效的卷积操作

4.1.4.3 RNN-based Methods ：

4.1.4.4 Graph-based Methods :

使用图神经网络（Graph NETWORKS）

[203]将点云表示为一组互连的简单形状和重叠点，并使用属性有向图(即重叠点图)来捕捉结构和上下文信息。然后，将大规模点云分割问题分解为三个子问题，即几何均匀分割、超点嵌入和上下文分割。

[214]提出了一个有监督的框架来将点云过度分割成纯粹的超点

为了更好地捕捉高维空间中的局部几何关系，康等人[222]提出了一种基于图形嵌入模块(GEM)和金字塔注意网络(PAN)的金字塔方法。

在[184]中，提出Graph Attention Convolution 用来从局部相邻集合中有选择性地学习相关特征。

GEM模块将点云表示为有向无环图，并利用协方差矩阵代替欧氏距离来构造相邻相似矩阵。在PAN模块中使用四种不同大小的卷积核提取不同语义强度的特征。在[215]中，提出了图形注意卷积(GAC)来选择性地从局部邻近集中学习相关特征。

5.2 Instance Segmentation

相比于语义分割，实例分割更具有挑战性，因为需要对点进行更精确和更细粒度的推理。不仅需要区分语义不同的点，还要区分语义相同的实例

（后期再补充）

5.3 Part Segmentation

(后期补充)

给个编制

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
文献阅读: Deep Learning for 3D Point Clouds: A Survey

文献: Deep Learning for 3D Point Clouds: A SurveyGuo Y, Wang H, Hu Q, et al. Deep learning for 3d point clouds: A survey[J]. IEEE transactions on pattern analysis and machine intelligence, 2020.Abstract：三个主要任务3D形状分类（3D shape classification）,3D目标检测和跟踪（3
复制链接

扫一扫