视频链接:4. 4-PointNet算法出发点解读_哔哩哔哩_bilibili
点云
- 点云存储起来是一组点(X,Y,Z),用来表示位置信息,也可以加上附加信息。
- 需要用特殊的软件才可以将点云形象化出来
- 点云数据可以做3D分类与分割,点转换为特征,在进行下流任务的预测
点云数据
- 无序性:只是点而已,排列顺序不影响
- 近密远疏的特性:扫描与视角不同导致,靠近智能体的点会比较清楚,原理的则比较模糊
- 非结构化数据,直接采用CNN较困难
- 要解决的任务就是如何对点云数据进行特征提取
PointNet
PointNet基本出发点
- 一般的网络模型需要训练的时候需要规范化的点,例如图片或者音频等。
- 由于点的无序性导致,需要模型具有置换不变性
- 此时MAX函数和全局相加就能很好的在神经网络中体现出来,最大池化层作为对称函数用来聚合所有点的信息。
(为了使模型对输入排列具有不变性,我们采用采用简单的对称函数来句和每个点的信息)
- 点云中的每一个点都是一个位置坐标,因此如果需要对后续任务进行计算,我们可以将每一个点先进行升维操作,之后再进行Max操作。
PointNet 网络框架
如图所示的网络框架中,input transform 与feature transform的作用很小,我们再次可以将其进行忽略, mlp是多层感知机(类似于全连接层,用于提取特征),我们采用mlp结构进行升维直到维度是1024,之后我们再采用maxpool结构得到全局的特征。如果此时是分类任务,我们可以直接采用mlp结构输出分类的结果。如果是分割任务,我们再输出维度为64的时候提取局部的特征,再拼接上全局的特征,形成一个既具有局部特征又具有全局特征的向量,之后采用mpl结构对每一个坐标点进行分类。
3D的时候是坐标点,2D的时候是像素点