From:arxiv;编译:T.R
点云是三维目标最为重要的表示形式之一,但高效地处理需要面临点云非规则、无序性和稀疏性的特点。为了克服三维卷积带来的计算资源消耗和分辨率限制,来自香港中文大学深圳分校等机构的研究人员们提出了一种基于局域展平的二维平面卷积方法FPConv,将点云非线性投影到特殊平面上,而后在利用2D卷积进行有效地特征抽取。
这种方法将点云转换到二维平面上的投影过程和插值过程简化为一个权重矩阵的学习。FPConv不仅提升了信息的抽取能力,简化了运算过程,同时还能便捷地集成到现有的点云处理框架中去,大幅度提高各类三维分析任务的性能。
FPConv
随着点云数据获取的途径日益增加,对于点云的高效处理需求也变得日益紧迫。但点云天然具有的非规则性和稀疏性使相应的3D处理、分析和理解过程还存在着不小的挑战。基于手工的特征无法适应范围广泛的应用场景,近年来使用多层感知机PointNet系列方法虽然取得了不错的效果,但却不支持图像领域非常有用的卷积操作。人们将图像领域的2D卷积拓展到了3D卷积来处理点云,但栅格化的体素表示不仅限制了模型的空间分辨率,同时也带来了非常高的内存与计算资源消耗。
在研究过程中人们发现,3D传感器和激光雷达的点云一般情况下仅仅集中物体的表面附近,内部几乎没有点存在。于是目标曲面作为3D数据更为自然和紧致的表示成为了人们处理三维数据更好的选择。但基于图结构的表示方法很大程度上则对局域拓扑结构较为敏感,人们将目光转向了在特殊的2D平面上对三维数据进行有效处理。
在这样思想的启发下,研究人员提出了一种新的卷积操作FPConv,可以直接作用于某一几何构型的局域表面,而无需任何的中间栅格表示或图表示。这种方法与投影-插值法比较类似但却具有更强的通用性,可以通过学习单个权重矩阵来同时完成投影到特殊平面并插值的过程。这种更为通用和鲁棒的过程可以被有效集成到多种模型架构中,实现点云分类、语义分割等有效的三维分析任务。
FPConv是一类基于物体表面表示的点云处理方法,将为每一个面片学习出非线性投影,将邻域内的点展平到2D的栅格平面内,随后2D卷积就可以便捷地应用于特征抽取。尽管这种方法会损失一个维度的信息,但有效地非线性投影还是实现的信息高度地保留和抽取,并超过了基于体素方法的模型性能。
下面,我们首先来看一看如何将物体表面点云的卷积是如何在离散情况下被简化为权重学习问题的。
接下来我们将证明如何将这一卷积计算问题转换为权重学习问题。
有了平面内的连续信号表示,那么卷积操作就可以分解为每一个栅格点处的操作:
上图显示了这一模块可以用权重学习取代投影和插值过程。但除此之外,这一模块还需要具备两个特点:首先对于不同无序的局域点云需要具备通用的不变性;其次需要针对不同的几何输入具有自适应性,以解决投影过程同时与局域坐标和局部的全局特征相关的问题。
所以研究人员首先利用pointnet抽取了局域的全局特征、使其具有针对局部的不变性;同时将得到的特征与对应点的坐标衔接在一起;最后利用共享的MLP来预测出最终的投影权重。上图中的左半部分详尽地描述了这一过程。在投影权重得到后,将特征投影到2D平面上就可以利用2D卷积来进行处理。为了抽取局域特征,全局卷积和池化将作用于最后两层。
但栅格平面上特征的强度不平衡会引起网络不稳定和训练的困难,所以接下来还需要对这一平面上的投影强度进行归一化处理。
其中一种方法是将权重都处以其总和,使得第一维的权重总和为1.为了避免分母为0,这里还使用了softmax的归一化方法。
但由于点云具有天然的稀疏性,所以将投影权重归一化为稠密栅格并不是最优的选择,所以研究人员设计了一种两步走的方法在保留稀疏性的同时实现栅格化。
首先将权重矩阵的第二个维度i进行归一化,以均衡区域内不同点间的不平衡;
而后再对权重矩阵的第二个维度j进行归一化,以便对每一个位置接收到的强度进行平衡。但这里利用的方法来维持连续的稀疏性(取1和每一列和间的最大值)。
连续稀疏性的示意图如下图所示:
通过以上处理就可以得到更为均匀的特征结果。
网络架构实现
为了实现点云分类和分割,研究人员提出了一种残差结构的FPConv模块,包括共享的MLP、FPConv堆叠以及跳接结构,其中MLP主要负责特征维度的增减。一方面迭代地利用最远点采样(FPS)来对点云进行下采样、更好地覆盖整个点云;另一方面使用最大池化来对邻域特征进行处理。
为了融合不同卷积处理方式的特征,研究人员提出了利用类似Inception的结构来融合不同的卷积,并行的处理特征并衔接各自的结果实现融合,其结构如下图所示:
利用这些处理模块的和策略,最终搭建的点云分割结果如下图所示:
针对大场景分割任务,研究人员分别在ScanNet、S3DIS等数据集上进行了实验,结果表明本文提出的FPConv方法可以取得良好的结果,并超过了基于表面处理的各种先前方法(倒数第四行);同时如果与体素方法相结合的话,还能够大幅度提升性能,mIOU在S3DIS上达到了66.7的结果。
下图显示了针对S3DIS的分割结果,FPConv方法可以有效提升其他方法的分割性能(第三列):
如果想要详细了解FPConv的理论和实现细节,请参看论文和代码实现:
https://github.com/lyqun/FPConv
http://thejiangmen222.mikecrm.com/wY67hy2 (二维码自动识别)
-The End-
戳右上角【+关注】关注我门↗
如果喜欢,点个【▲赞同】分享给你的小伙伴吧~笔芯❤