pts点云数据_三维点云分类与分割-PointNet

最新推荐文章于 2024-09-20 15:49:25 发布

韩塞尔

最新推荐文章于 2024-09-20 15:49:25 发布

阅读量1.6k

点赞数 1

文章标签： pts点云数据

本文链接：https://blog.csdn.net/weixin_29745227/article/details/113707960

版权

本文详细介绍了PointNet网络结构及其在处理点云数据时如何解决无序性和旋转问题。通过MaxPooling解决无序性，并利用空间变换网络进行旋转对齐。点云数据经过采样、中心化和随机增强处理后，输入网络进行特征提取，最终实现分类和分割任务。

摘要由CSDN通过智能技术生成

PointNet是对点云数据直接进行学习的开山之作，这里结合PointNet-Pytorch代码，对PointNet网络结构与其思想进行阐述和分析。

点云数据的特性：

点云数据不同于图像数据，他有三个重要的特征，也正是基于这些特征，才有PointNet网络的一系列的设计。

1）点云的无序性

这个要对比图像数据来理解，一团点云数据中有很多个点数据，这些点在点云文件里无论以什么顺序出现，它们指代的信息并不改变。相反，一张图片里的点在图像里已经按照固有的顺序排列好了。论文里利用了maxpooling这个对称函数来提取点云的数据特征。

2）点与点之间的空间关系

每个点都包含了空间坐标信息，这些信息之间构成一定的集合空间关系，为了利用这种关系，论文作者提出了将局部特征和全局特征进行串联的方式来聚合信息。

3）不变性

这样理解，一团点云数据进行旋转和平移，它代表的目标不会发生改变。论文在进行特征提取之前，先对点云数据进行对齐来保证不变性。通过训练一个小型的网络得到一个旋转矩阵，用这个矩阵与点云数据相乘来实现对齐操作。

数据集

以论文里用到的数据集是shapenet，包含了16类样本，以其中的一类Airplane的文件夹来说明，里面有很多.pts格式的文件，这就是不同飞机的点云格式，里面放的就是一个个坐标点，坐标经过了归一化处理。

在读取数据的dataloader里，对每个数据进行了中心化和随机增强，而且在输入网络前对样本进行了特定数量的重采样，这样保证了输入到网络里的样本的点数是一样的。

网络结构及其实现

1）对于一维卷积conv1d

假设对所有的样本进行了2500个点的重采样，样本的尺寸为2500*3，由于pytorch卷积的要求，输入前进行转置，变成3*2500，假定batch_size = 1, 输入尺寸就是1*3*2500，

假设做的第一步卷积操作是conv1 = torch.nn.Conv1d(3, 64, 1)，即输入通道=3，输出通道=64，卷积核大的大小为1（在tensorflow里为1x3, 用conv2d实现，本质上是一样的），卷积核第二个维度是由in_channels来决定的，所以实际上卷积大小为in_channels*kerner_size，这里为3*1。
进一步理解一下，在第一个卷积层中，使用conv1对x进行卷积的时候，实际上是使用64个3*1的卷积核进行卷积，输出尺寸应该是1*64*2500，其中1还是batch size。

画了个草图来解释这个卷积过程

点云数据一维卷积过程

在了解了一维卷积之后，网络就变得很简单了。对于分类问题，如果把batch size记为n，样本在网络中的变化就是n*3*2500 ——> n*64*2500 ——> n*128*2500 ——> n*1024*2500 ——> n*1024*1(max pooling后) ——> n*512*1 ——> n*256*1 ——> n*16*1 (本次实验样本共有16类）

再来看网络结构：

mlp是通过共享权重的卷积实现的，第一层卷积核大小是1x3（因为每个点的维度是xyz），之后的每一层卷积核大小都是1x1。特征提取层只是把每个点连接起来而已。经过两个空间变换网络和两个mlp之后，对每一个点提取1024维特征，经过maxpool变成1x1024的全局特征。再经过一个mlp（代码中运用全连接）得到k个score。分类网络最后接的loss是softmax。