Paper Reading: PointNet (Analysis + Coding)

Creator_Wei

已于 2023-03-13 16:32:59 修改

阅读量1.5k

点赞数

分类专栏： Point Cloud 文章标签：深度学习计算机视觉 cnn

于 2022-06-19 21:44:58 首次发布

本文链接：https://blog.csdn.net/weixin_41610241/article/details/125360170

版权

Point Cloud 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Content

Local and Global Information Aggregation：

Background

典型的卷积架构需要高度规则的输入格式，比如Image grids和3D voxels（为了权重共享和内核优化）。所以，之前大部分的研究都需要首先将点云转换为常规的3D voxels grids和Collections of images。这样不得会有大量的工作量。PointNet的出现直接对点云使用深度学习的方法，解决了这个问题。

对于PointNet的进一步提升，详情见PointNet++(Analysis & Coding)

Contribution

设计了一种使用于三维空间中的消耗无需点集的深度网络结构；
将PointNet使用于Classification，Segmentation以及Scene semantic parsing；
对该方法的稳定性和有效性做了深入的论证；

PointNet

主要解决的问题

点云的无序性：因为点云本身是没有顺序的，而且点云中的点无论怎么变化都不会影响点云的整体结构。然而使用N个3D点云的网络需要保持N的不变。PointNet引入了Symmetry Function解决了这个问题；
点和点之间的相互作用：点云不是孤立存在的，只有一个点和它相邻的点在一起才能生成有意义的点集。因此点云的深度网络需要不仅提取局部特征，还要提取全局特征。PointNet引入了Loacal and global feature aggregation的方法解决了这个问题。
点云的旋转不变性：因为点云的空间结构，学习到的点集应该对于某些转换是不变的。比如点云的旋转和平移不能改变全局点云的分类和分割。PointNet引入了Alignment Network解决了这个问题。

PointNet结构

Baseline

PointNet过程

对点云进行flap，rotation, scaling等操作后，作为输入点云；
Point_Encoder
1. 输入点云大小为n*3的Tensor，之后经过3*3的T-Net将点云和规范化，也就是将点云经过了一个相同的网络变换到了统一的空间里。其实T-Net就是一个小的point-net，在网络中T-Net有两个，一个是input transform，另一个是feature transform。input的T-NET是旋转出一个易于分割的角度，feature的T-NET是将特征对齐；
2. 之后经过了一系列的mlp和T-Net得到了最终的n*1024特征。
3. 使用max_pool,这也文章的亮点，使用max-pool作为对称函数解决了点云的无序性，也就是无论点云以什么样子的顺序输入，max-pool之后的结果都一样；
4. 对于Seg网络来说，使用了全局特征和局部特征的结合，也就是将max-pool之前和之后的做了拼接（concat），这里global*64就可以和局部特征拼接；
Point-Decoder: 用于各种下游任务；

Symmetry Function

为了解决点云的排列不变性，作者在此提出了3种解决方法：

将输入的点云排序
将输入作为一个序列训练RNN
使用一个简单的堆成函数

对于1来说，因为在高维空间中并不存在一个稳定的排列顺序。如果这种排列顺序存在，那么会要求该映射在维度降低时保持空间接近。因此无法实现。

对于2来说，RNN对于短小的序列具有很好的鲁棒性，但是点云一般都是上千个输入元素，因此不能使用RNN

对于3来说，可以通过对集合中的元素变换后的元素应用对称函数近似定义在点集上的一般函数。PointNet中使用了这个方法。在PointNet中，构建了一个如下的对称函数：

在此堆成函数中想要让 $f(x)$ 近似等于 $g(x)$ 。在实现的过程中， $h(x)$ 通过mlp来实现， $g(x)$ 通过Max_pool实现。以下是对于三种方法的结果对比：

Local and Global Information Aggregation：

点云的分割不仅仅需要局部的特征，而且还需要全局的特征。在PointNet中将Max_Pool之前和之后的数据进行了拼接并且用拼接的数据继续提取每个点的特征。这样保证了每个点的特征同时又感知局部和全局的信息。具体的凭借过程入Baseline中的下图所示：

Alignment Network：

点云经过一些刚体变换，点云的结构和形状是不发生改变的。为了保证点云经过一定的集合变换，点云的语义标注时不变的，作者加入了Alignment Network，保证了特种空间的对齐。在PoingNet中，作者在点的特征上插入另一个对其网络（T-Net），并预测一个特征变换矩阵来对其来自不同输入的点云特征。然而，因为特征空间中的转换矩阵相比空间转换矩阵要维度高很多，因此不好优化。所以在Training_loss中加入一个正则优化项约束一下，将特征变化矩阵约束为接近正交矩阵。公式如下，其中A为T-Net的特征对其矩阵：

其中T-Net的Baseline如下：

在T-Net中进行了两项操作。首先先将原始点云作为输入，将数据从[32, 1024, 1]变为[32, 256]。其中在3*3和64*64的Transform中经历了mlp（64，128，1024) + Max_pooling + Full_connencted(512, 256)。之后又加入了旋转和平移的偏置。在3*3中将数据由[32, 256]变为了[32, 3, 3]。在64*64中将数据由[32, 256]变为了[32, 64, 64]。详细见代码。

对于加入T-Net的表现如下: