论文名称:PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation
主要内容:
本文利用点云的无序性和旋转不变性,提出了一个深度网络,直接将点云的(x,y,z)坐标作为输入,根据网络结构的不同可以完成分类、目标部分分割和场景分割任务。
解决的问题:
神经网络通常处理的数据都是有规范格式的,例如图片,文本信息。然而点云作为一种不规范的、无序数据,通常转化为以下几种形式再输入网络:
1 栅格(体素)
转化为规范形状的栅格,用0或1表示是否存在物体。栅格单元小则充斥大量0数据,栅格单元大则丢失很多特征信息。
2 2D图像
将3D点云映射为2D图像,利用2D神经网络进行分类。丢失大量特征信息。
3 Mesh
由三角面片和正方形面片组成。
4 向量特征
从3D点云提取向量特征,然后用全连接网络进行分类。丢失大量信息。
本文的思想是直接利用3D点云的原始数据,x,y,z和其他信息(本文只利用了坐标信息)作为网络输入,在不丢失任何信息的情况下取得了较好的性能。
方法:
点云的无序性:
3D点云可以表示为一个n×3的矩阵,它代表的信息和矩阵中每个点所处的矩阵位置无关,因此利用对称函数处理3D点云。