【文献翻译】RandLA-Net：大尺度点云上的高效语义分割

Garcia • Kirlant

已于 2022-07-07 17:40:41 修改

阅读量719

点赞数

分类专栏： 3D点云实例分割文章标签：深度学习

于 2021-07-05 14:54:39 首次发布

本文链接：https://blog.csdn.net/WingNebula/article/details/118345734

版权

摘要我们研究了大规模三维点云的有效语义分割问题。由于依赖昂贵的采样技术或繁重的预处理/后处理步骤，大多数现有方法只能在小规模的点云上进行训练和操作。在本文中，我们引入了RandLA-Net，这是一个高效和轻量级的神经体系结构，用于直接推断大规模点云的点语义。我们的方法的关键是使用随机点采样，而不是更复杂的点选择方法。尽管随机抽样具有很高的计算和内存效率，但它可能会偶然丢弃一些关键特征。为了克服这一问题，我们引入了一种新的局部特征聚合模块，逐步增加每个三维点的接受场，从而有效地保留几何细节。大量实验表明，我们的RandLA-Net可以单次处理100万个点，比现有方法快200倍。此外，我们的RandLA-Net在两个大规模基准Semantic3D和SemanticKITTI上明显优于最先进的语义分割方法。

1. 引言

大规模三维点云的高效语义分割是自动驾驶和增强现实等实时智能系统的基础和基本功能。一个关键的挑战是，深度传感器获取的原始点云通常是不规则采样、无结构和无序的。尽管深度卷积网络在结构化二维计算机视觉任务中表现出优异的性能，但它们不能直接应用于这类非结构化数据。
最近，PointNet^[43]的开创性工作已经成为直接处理3D点云的一种有前途的方法。它使用共享多层感知器(MLPs)学习逐点特征。这在计算上是有效的，但不能为每个点捕获更广泛的上下文信息。为了学习更丰富的局部结构，许多专门的神经模块随后被迅速引入。这些模块大致可以分为：1) 邻域特征池化[44,32,21,70,69] ；2) 图消息传递[57,48,55,56,34]；3) 基于核的卷积[49,20,60,29,23,24,54,38]；4) 基于注意力的 aggregation [61,68,66,42]。尽管这些方法在对象识别和语义分割方面取得了令人印象深刻的结果，但几乎所有的方法都局限于极小的3D点云(如4k点或1×1米块)，不能直接扩展到较大的点云(如，数百万个点，高达200×200米)没有预处理步骤，如块分区。造成这种限制的原因有三方面。1) 这些网络中常用的点采样方法要么是计算开销大，要么是内存效率低。例如，广泛使用的最远点采样^[44]需要超过200秒才能对100万个点中的10%进行采样。 2) 大多数现有的局部特征学习器通常依赖于计算代价昂贵的核化或图构造，因此无法处理大量的点。3) 对于由数百个对象组成的大规模点云，现有的局部特征学习者器要么无法捕捉复杂结构，要么由于接受域的大小有限而效率低下。

最近的一些工作已经开始着手处理直接处理大规模点云的任务。SPG^[26]对大型点云进行超图预处理，然后应用神经网络对每个超点语义进行学习。FCPN^[45]和PCT^[7]都结合了体素化和点级网络来处理大量的点云。虽然它们能达到不错的分割精度，但预处理和体素化步骤的计算量太大，无法部署在实时应用中。

在本文中，我们的目标是设计一种内存和计算效率高的神经结构，它能够直接处理大规模的3D点云，无需任何预处理/后处理步骤，如体素化，块划分或图构造。然而,这个任务是极具挑战性,因为它需要：1) 一种内存和计算效率高的大规模点云逐步下采样方法，以适应当前gpu的限制，2) 一个有效的局部特征学习器，逐步增加接受域的大小，以保持复杂的几何结构。为此，我们首先系统地证明了随机采样是深度神经网络有效处理大规模点云的关键因素。然而，随机采样会丢弃关键信息，特别是对于点稀疏的对象。为了克服随机采样可能带来的不利影响，我们提出了一种新的有效的局部特征聚合模块，用于在渐进较小的点集上捕获复杂的局部结构。

在现有的采样方法中，最远点采样和逆密度采样是小尺度点云最常用的采样方法 [44,60,33,70,15]。由于点采样是这些网络中的一个基本步骤，我们在第3.2节中研究了不同方法的相对优点，其中我们看到，常用的采样方法限制了向大点云的缩放，并成为实时处理的一个重大瓶颈。然而，我们认为随机抽样是迄今为止最适合大规模点云处理的组件，因为它快速且有效。随机抽样不是没有代价的，因为显著的点特征可能会被偶然丢弃，而且它不能在现有的网络中直接使用而不引起性能损失。为了克服这个问题，我们在第3.3节中设计了一个新的局部特征聚合模块，该模块可以通过逐步增加每个神经层的接受域大小来有效学习复杂的局部结构。特别地，对于每个三维点，我们首先引入局部空间编码(LocSE)单元来显式地保留局部几何结构。其次，我们利用注意池来自动保留有用的局部特性。第三，我们堆叠多个LocSE单元和注意池作为一个扩展的残差块，大大增加了每个点的有效接受场。请注意，所有这些神经组件都实现为共享mlp，因此具有显著的内存和计算效率。

总的来说，基于简单随机采样和有效的局部特征聚合器的原则，我们高效的神经结构，RandLA-Net，不仅比现有的大规模点云方法快200倍，而且在Semantic3D^[17]和SemanticKITTI^[3]基准上也超过了最先进的语义分割方法。图1显示了我们的方法的定性结果。我们的主要贡献是：

我们分析并比较了现有的采样方法，确定随机采样是在大规模点云上有效学习的最合适的组件。
我们提出了一种有效的局部特征聚合模块，通过逐步增加每个点的接收域来保留复杂的局部结构。
我们证明了baseline上的显著的内存和计算收益，并在多个大规模基准上超越了目前最先进的语义分割方法。

2. 相关工作

从三维点云中提取特征，传统的方法通常依赖于手工制作的特征[11,47,25,18]。最近的基于学习的方法[16,43,37]主要包括基于投影、基于体素和基于点的方案，在此概述。

1）基于投影和体素的网络 为了利用 2D CNN 的成功，许多作品 [30,8,63,27] 将3D点云投影/平放到2D图像上，以解决目标检测的任务。然而，在投影过程中，几何细节可能会丢失。或者，点云可以体素化成三维网格，然后在 [14,28,10,39,9] 中应用强大的 3D CNN。虽然它们在语义分割和目标检测方面取得了领先的成果，但它们的主要局限性是计算成本高，尤其是在处理大规模点云时。

2) 基于点的网络 受PointNet/PointNet++^[43,44]的启发，许多最近的作品引入了复杂的神经模块来学习逐点的局部特征。这些模块一般可以分为： 1) 邻域特征池化 [32,21,70,69]，2) 图消息传递[57,48,55,52,34,31]，3) 基于核的卷积 [49,20,60,29,23,24,54,38]，4) 基于注意力的聚集[61,68,66,42]。尽管这些网络在小点云上显示出了很有前景的结果，但由于它们的高计算和内存成本，它们中的大多数无法直接扩展到大型场景。与它们相比，我们提出的RandLA-Net有三方面的特点:1)它只依赖于网络内部的随机采样，因此占用的内存和计算量大大减少;2)所提出的局部特征聚合器通过明确考虑局部空间关系和点特征，可以连续获得更大的接受域，从而对复杂的局部模式学习更加有效和鲁棒;3)整个网络仅由共享的mlp组成，不依赖任何昂贵的操作，如图的构造和核化，因此对于大规模点云非常高效。

3）大尺度点云的学习 SPG^[26]将大型点云预处理为超点图，以学习每个超点语义。最近的FCPN^[45]和PCT^[7]应用基于体素和基于点的网络来处理大量的点云。然而，图划分和体素化的计算代价都很高。相比之下，我们的RandLA-Net是端到端可训练的，不需要额外的预处理/后处理步骤。

3. RandLA-Net

3.1 概述

如图2所示，给定一个大范围的点云，有数百万个点，跨度达数百米，要用深度神经网络处理它，不可避免地需要在每个神经层中逐步有效地对这些点进行降采样，同时不丢失有用的点特征。在我们的RandLA-Net中，我们提出使用简单快速的随机抽样方法来大大降低点密度，同时应用精心设计的局部特征聚合器来保留突出的特征。这使整个网络能够在效率和效力之间取得良好的平衡。
在这里插入图片描述

图2. 在RandLA-Net的每一层中，大尺度的点云被显著地降采样，但仍然能够保留准确分割所需的特征。

3.2 对有效采样的需求

现有的点采样方法[44,33,15,12,1,60]大致可以分为启发式方法和基于学习的方法。但是，目前还没有适用于大规模点云的标准采样策略。因此，我们分析比较了它们的相对优点和复杂性。

1）启发式采样

最远点采样 (FPS)：为了从一个有 $N$ 个点的大规模点云 $P$ 中采样 $K$ 个点，FPS返回一个度量空间的重新排序 ${p_1···p_k··p_K}$ ，使得每个 $p_k$ 都是距离前 $k - 1$ 个点最远的点。FPS被广泛用于小点集的语义分割 [44,33,60]。虽然它对整个点集有很好的覆盖，但其计算复杂度为 $O(N^2)$ 。对于大规模的点云 $(N$ ~ $10^6)$ ， FPS在单个GPU上的处理时间高达200秒。这说明FPS不适用于大规模点云。

逆密度重要性采样 (IDIS)：从 $N$ 个点中抽取 $K$ 个点，IDIS根据每个点的密度对所有 $N$ 个点进行重新排序，然后选取最上面的 $K$ 个点^[15]。其计算复杂度近似为 $O (N)$ 。根据经验，处理 $10^6$ 个点需要10秒。与FPS相比，IDIS的效率更高，但对离群值更敏感。但是，在实时系统中使用它还是太慢了。