PointNet网络详解-CSDN博客

本文链接：https://blog.csdn.net/lzn025/article/details/114259290

说明：
1.此乃本人阅读论文过程中所记录的笔记，由于本人水平有限，难免会出现遗漏重点或表述不清等问题，请各位见谅。同时希望各位指出我的问题，让我发现问题所在，谢谢大家Thanks♪(･ω･)ﾉ。
2.有些用词根据原文翻译（或是直接用原文），可能语句不通畅。（毕竟我是一个六级考了五次的憨憨）
3.数据处理部分和结论分析部分没有加入，此处主要为了理清文章描述方法的处理流程。

论文原题：PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation

摘要：本文提出了一种名为PointNet的网络结构，以点云为输入，很好地确保了点云输入的排列不变性，用于物体的分类和分割以及场景语义解析。

介绍：
1.以前因为点云和网格不是规则格式，所以大多都是将之转化为三维体素网格或者图片的集合。这样不仅会造成数据量的臃肿，而且会引入量化伪影，掩盖数据的不变性。
2.文章的主要贡献：
- 设计了一种新颖的深度网络结构，可以用于无序的点云结构。
- 展示了该网络如何用于物体的分类和分割以及场景语义解析任务。
- 为该方法的稳定性和高效性提供了理论分析。
- 阐述了如何从网络的神经元中提取三维特征，并为结果提供了直观解释。

网络结构解析：
输入：三维点云（简单起见，仅以（x，y，z）坐标表示一个点）
点云满足以下三个特性：
1. 无序性。网络需满足对集合内的点的任意排列都保持结果不变。
2. 点之间的相互联系。模型需要能够从相邻点之间的联系捕捉局部结构。
3. 变换不变性。例如，对整个点云集合进行旋转或平移变换，不会改变点云类别或点的分割。

在这里插入图片描述
上图为整体的网络结构，主要分为分类网络和分割网络。处理流程如下：
a. 输入为一帧的全部点云数据的集合，表示为一个nx3的2d tensor，其中n代表点云数量，3对应xyz坐标。
b. 输入数据先通过和一个T-Net学习到的转换矩阵相乘来对齐，保证了模型的对特定空间转换的不变性。
c. 通过多次mlp对各点云数据进行特征提取后，再用一个T-Net对特征进行对齐,之后再进行mlp。
d. 在特征的各个维度上执行maxpooling操作来得到最终的全局特征。
e. 对分类任务，将全局特征通过mlp来预测最后的分类分数；对分割任务，将全局特征和之前学习到的各点云的局部特征进行串联，再通过mlp得到每个数据点的分类结果。

网络的三个重要组件解析：
1.最大池化层（max-pooling），作为对称函数解决输入的无序性
解决结果对输入的无序性的不变，有三种处理方法：
1）对输入进行排序。但是高维空间不存在稳定的排序方法，而且网络难以学习到一致的输入和输出之间的映射。
2）将输入视作一个序列，用RNN进行训练。但是RNN仅对小批量序列有较好的鲁棒性，难以扩展到像点云的大批量序列。
3）用一个简单的对称函数聚合每个点的信息。
对变换后的元素使用对称函数，从而估计得到定义在点集上的一般函数：
$f({x_1,x_2,...,x_n})\approx g(h(x_1),...,h(x_n))$
其中 $f:2^{{\mathbb{R}^N}}\rightarrow\mathbb{R}$ , $h:\mathbb{R}^N\rightarrow\mathbb{R}^K$ , 对称函数 $g:\mathbb{R}^K\times\dots\times\mathbb{R}^K\rightarrow\mathbb{R}$
用多层感知机(mlp)估计h，用单变量函数和max-pooling函数的组合逼近g。
2.局部和全局信息的聚合，处理点云中点与点之间的联系
对于分割任务，需要点云的全局信息和局部信息。如流程图所示，将最大池化后的全局特征和训练过程中的局部特征相拼接，让每个点同时具有局部特征和全局特征，在用mlp得到每个点的分类结果。
3.训练小型网络，对点云数据进行对齐，满足变换不变性
在进行特征提取之前，对点云数据进行对齐操作，通过训练小型网络T-net获得变换矩阵，对点云的每个点应用变换矩阵。

PointNet论文笔记