Moving Object Segmentation in 3D LiDAR Data: A Learning-Based Approach Exploiting Sequential Data 翻译-CSDN博客

文章目录

1. INTRODUCTION
2. RELATED WORK
3. OUR APPROACH
4. EXPERIMENTAL EVALUATION

摘要:在场景中检测和分割移动物体的能力对于构建一致的地图、做出未来状态预测、避免碰撞和规划至关重要。在这封信中，我们解决了3D激光雷达扫描中运动物体分割的问题。我们提出了一种新颖的方法，将当前仅激光雷达移动物体分割的最新技术向前推进，为自主机器人和其他车辆提供相关信息。我们的方法不是从语义上对点云进行分割，即预测车辆、行人、道路等语义类，而是 将场景准确地分割为移动和静态对象，即区分移动的汽车和静止的物体。

停着的汽车。我们提出的方法利用来自旋转3D LiDAR传感器的序列距离图像作为与卷积神经网络相结合的中间表示，并且比传感器的帧速率更快。我们将我们的方法与其他几种最先进的方法进行了比较，这些方法在城市环境中显示出优越的分割质量。此外，我们还创建了一个基于SemanticKITTI的lidar的运动目标分割的新基准。我们发布它是为了让其他研究人员可以透明地比较他们的方法，我们还进一步发布了我们的代码。

1. INTRODUCTION

识别环境中哪些部分是静态的，哪些是移动的能力是安全可靠的自主导航的关键。它支持预测周围环境的未来状态、避免碰撞和规划的任务。这些知识还可以改进和增强姿态估计，传感器数据配准以及同时定位和绘图(SLAM)。因此，在帧速率下，传感器数据中准确可靠的运动目标分割(MOS)是支持大多数自主移动系统的关键能力。根据应用领域和所选择的传感器设置，运动物体分割可能是一项具有挑战性的任务。

在这项工作中，我们解决了在城市环境中以传感器帧速率在3D LiDAR数据中运动目标分割的问题。我们的目标不是检测所有理论上可移动的物体，如车辆或人，而是将实际移动的物体(如驾驶汽车)与静态或不移动的物体(如建筑物、停放的汽车等)分离开来。如图1所示为示例场景和我们的分割。移动的物体用红色表示。我们提出了一种基于卷积神经网络(cnn)的新方法来明确解决3D激光雷达扫描的MOS问题。我们利用距离图像作为中间表示，这是旋转3D激光雷达(如Velodyne或Ouster传感器)扫描的自然表示。基于这种相对轻量级的表示，我们可以直接利用Milioto等人[19]、Cortinhal等人[8]和Li等人[16]提出的现有基于距离图像的语义分割网络来解决MOS问题。现有的基于激光雷达的语义分割网络大多预测点云的语义标签，如车辆、建筑物、道路等。他们不能区分实际移动的物体，比如移动的汽车，和静止的物体，比如停着的汽车和建筑物等。我们正在进行这种区分，并利用范围图像序列，允许针对自动驾驶汽车进行有效的运动物体分割。我们的主要应用重点是自动驾驶汽车在户外场景中的感知，但该方法本身并不局限于这个领域。

在这里插入图片描述
本文的主要贡献是一种基于cnn的新方法，该方法使用3D激光雷达扫描产生的距离图像和过去扫描产生的残差图像作为当前帧中每个距离测量的输入和输出，并标记其是否属于运动物体。通过结合距离图像和残差图像，我们的网络利用了时间信息，可以区分运动和静态物体，如图1所示。对于训练，我们重新组织SemanticKITTI[3]数据集，并通过利用现有的移动交通参与者的注释，将原始标签合并为移动和静态两类。此外，我们的方法比传感器帧速率更快，即典型的旋转3D LiDAR传感器为10 Hz。通过与多种现有方法的比较，表明该方法能够更准确地分割运动目标。总而言之，我们提出了两个关键主张:首先，我们的方法能够仅使用3D激光雷达扫描实现运动物体分割，并且运行速度快于传感器帧率10 Hz。其次，除了当前扫描之外，它还通过合并残余图像来提高运动目标分割性能，并且优于几种最先进的网络。为了尽可能容易地进行比较并支持未来的研究，我们提出并发布了一个基于SemanticKITTI数据集的移动目标分割基准1，包括一个隐藏测试集，我们发布了我们方法2的源代码。我们还提供了一个简短的视频来说明我们的方法的能力。

2. RELATED WORK

虽然人们对基于视觉的[2]、[18]、[21]、基于雷达的[1]以及视觉和激光雷达相结合的[23]、[32]运动物体分割方法有很大的兴趣，但我们在这里集中讨论仅使用激光雷达传感器的方法。下面，我们将区分基于地图的方法和无地图的方法。

基于地图的方法。大多数现有的基于激光雷达的方法都是针对点云图的清理。这些方法大多离线运行，并依赖于预构建的映射。一些方法使用耗时的体素射线投射，并且需要精确对齐的姿态来清洁密集的地面激光扫描[13]，[25]。为了减轻计算负担，已经提出了基于可见性的方法[22]，[31]。这些类型的方法将查询点云与窄视场内的地图点关联起来，例如Pomerleau等人[22]使用的锥形。最近，Pagad等[20]提出了一种基于占用图的方法来去除激光雷达扫描中的动态点。他们首先使用物体检测构建占用地图，然后使用体素遍历方法去除移动物体。Kim等人[15]提出了一种基于距离图像的方法，该方法利用查询扫描与预建地图之间的一致性检查来去除动态点，并使用多分辨率假预测恢复算法来优化地图。尽管这种基于地图的方法可以将运动物体从背景中分离出来，但它们需要预先构建和清理地图，因此通常无法实现在线操作。

Map-free方法。近年来，仅对传感器数据进行操作的基于lidar的语义分割方法取得了很大的成功[8]，[16]，[19]。Wang等人[29]解决了从城市场景的3D激光扫描中分割可能移动的物体的问题，例如汽车、行人和骑自行车的人。Ruchti和Burgard等人[24]也提出了一种基于学习的方法来预测潜在可移动物体的概率。Dewan等[10]提出了一种基于lidar的场景流方法，用于估计刚体的运动矢量。在此基础上，他们开发了语义分类和分割方法[9]，[11]，利用时序激光雷达扫描的时间一致性信息。Bogoslavskyi和Stachniss[5]提出了一种3D激光雷达扫描的类别无关分割方法，该方法利用距离图像实现在线操作，并导致更连贯的分割，但不区分运动和非运动物体。

语义分割可以看作是移动目标分割的一个相关步骤。然而，大多数现有的语义分割方法只能找到可移动的对象，例如:车辆和人，但不区分实际移动的物体，如驾驶的汽车或行走的行人，和非移动/静态的物体，如停放的汽车或建筑物结构。与我们最相似的工作是Yoon等人[33]的工作，该工作也可以在不使用预先构建的地图的情况下检测LiDAR扫描中的动态物体。它利用启发式算法，例如激光雷达扫描之间的残差，自由空间检查和区域增长来寻找移动物体。还有多种基于三维点云的语义分割方法[26]-[28]，在语义分割任务中也表现良好。其中，Shi等[26]利用序列点云预测运动目标。然而，基于直接在点云上运行的网络，这些方法通常是繁重且难以训练的。此外，其中大多数都是耗时和资源密集型的，这可能不适用于自动驾驶。

我们的方法也是基于神经网络的，我们研究了Milioto等人[19]、Cortinhal等人[8]和Li等人[16]最近提出的三种基于距离投影的语义分割方法的使用，以解决MOS的实时能力和超越激光雷达传感器帧速率的操作前景。我们的方法不依赖于预先构建的地图，而是在线操作，即只使用过去的激光雷达扫描。我们利用当前帧和前帧之间的残差作为所研究的语义分割网络的额外输入，以实现与类别无关的移动对象分割。请注意，所建议的体系结构不依赖于基于特定范围投影的语义分割体系结构。通过使用提出的新二进制掩码训练网络，我们的方法以端到端的方式区分移动的汽车和停放的汽车。

3. OUR APPROACH

我们的方法的目标是实现准确和快速的移动目标分割(MOS)，用于激光雷达扫描，使自主移动系统能够及时做出决策。图2显示了我们提出的方法的概念概述。为了实现在线MOS，我们首先将点云投影到距离图像表示中(参见第III-A节)。为了分离移动和非移动对象，我们利用顺序信息(参见第III-B节)计算当前和先前扫描之间的残差(参见第III-C节)。最后，我们将它们与距离信息连接在一起，作为分割CNN的输入(参见第III-D节)。此外，我们提出了一种基于SemanticKITTI的新型MOS基准(参见第III-E节)来训练和评估MOS方法。

A. Range Image Representation

与先前的工作[7]，[16]，[19]一致，我们使用点云的距离投影来生成图像表示。具体来说，我们通过映射Π: R3→R2将每个LiDAR点p = (x, y, z)转换为球坐标，最后转换为图像坐标，定义为
在这里插入图片描述
式中(u, v)为图像坐标，(h, w)为期望距离图像表示的高度和宽度，f=fup+fdown为传感器的垂直视场，r=||pi||2为各点的距离。这个过程产生一个(u, v)元组的列表，每个pi包含一对图像坐标。使用这些指标，我们提取每个pi，它的范围r，它的x, y和z坐标，以及它的缓解e，并将它们存储在图像中。因此，每个像素可以存储的不仅仅是一个范围。因此，我们可以很容易地利用额外的信息，并将其添加为额外的通道。因此，我们可以直接将这些信息提供给现有的网络，而无需改变体系结构，这使得我们的方法很容易转移到其他新的体系结构中。为了证明这种能力，我们在本文中用三种不同的分割网络测试了我们的方法。

B. Sequence Information

我们的目标是在线分割移动物体，即仅使用当前和最近的激光雷达扫描，这样就可以在SLAM管道中利用这些信息进行里程估计，并可能从地图表示中删除动态。假设给定SLAM历史中N次LiDAR扫描的时间序列，用Sj = {pi∈R4}表示，其中M个点用齐次坐标表示，即pi = (x, y, z, 1)。我们用S0和的序列表示当前的激光雷达扫描N之前由Sj以1<j<N进行扫描。估计的NSLAM/里程计的连续相对变换方法，T N−1…NT 0在N + 1个扫描位姿之间，用变换矩阵表示，即t1 k∈R4×4，也假设是可用的。给定连续扫描之间估计的相对姿态，我们可以将点从一个视点转换到另一个视点。将第k次扫描变换为第l次扫描的坐标系表示为
在这里插入图片描述

C. Residual Images

Wang等人[30]利用RGB视频帧之间的差异进行动作识别，受到他们的启发，我们提出使用基于lidar的残差图像和距离图像上的像素级二值标签来分割运动物体。结合当前的传感器读数和残差图像，我们可以利用残差图像中的时间信息，利用现有的分割网络来区分运动物体和背景上的像素。为了生成残差图像并将其融合到当前距离图像中，需要进行变换和重投影。为了实现这一点，我们提出了一个三步的过程:首先，根据Eq.(2)中定义的变换估计，我们通过将以前的扫描转换为当前的局部坐标系来补偿自我运动。接下来，使用Eq.(1)将转换后的过去扫描Sk→l重新投影到当前的距离图像视图中。我们通过计算当前帧和转换后的帧之间的归一化绝对差来计算每个像素的残差dl k,i
在这里插入图片描述
其中ri为PI从当前帧到图像坐标(ui, vi)处的距离值，rk→l I为变换后的扫描到同一图像像素处的相应距离值。我们只计算包含测量值的有效像素的残差，并将无效像素的残差设置为零。图3描述了这种残差图像的示例。我们可以看到，由于场景中物体的运动，例如:在移动的汽车中，与静态背景相比，这些点在公共视点之间的位移相对较大。但是，存在模糊性，对于一个运动物体，较大的残差模式出现两次，而对于缓慢运动的物体，残差模式不明显。因此，直接使用残差图像进行运动目标分割并不能获得很好的分割效果。然而，它为运动物体提供了有价值的线索，可以引导网络区分运动和不运动的物体。
在这里插入图片描述
最后，残差图像作为附加通道与当前距离图像连接，其中距离图像提供空间信息，残差图像编码时间信息。然后，融合范围图像中的每个像素(ui, vi)包含不同类型信息的向量(xi, yi, zi, ri, ei, d0 1,i，…，d0 j,i，…，d0 N - 1,i)，其中d0 j是最后第j帧与当前帧之间计算的残差图像。

D. Range Projection-Based Segmentation CNNs

在本文中，我们没有设计新的网络架构，而是重用了过去成功应用于基于lidar的语义分割的网络。我们采用并评估了三种流行的网络，即SalsaNext [8]， RangeNet++[19]和MINet[16]，用于MOS。SalsaNext和RangeNet++是具有稳定性能的编码器-解码器架构，而MINet使用轻量级和高效的多路径架构。分割后，在点云上使用基于gpu的快速最近邻搜索来去除距离投影产生的伪影[19]。所有方法都是最先进的基于距离投影的激光雷达语义分割网络，重量相对较轻，并且可以实现实时操作，即比所使用的激光雷达传感器的帧速率快，普通Ouster和Velodyne扫描仪的帧速率为10 Hz。关于各个网络的更详细信息，请参考原文[8]、[16]、[19]。

我们没有改变这些分割网络的架构，而是直接给它们输入融合的距离图像和残差信息，重新训练网络，并使用我们在第III-E节中提出的MOS基准来评估它们的性能。使用我们提出的残差图像方法，所有分割网络在运动目标分割方面都有很大的改进，如第IV-A节所示。对于训练，我们使用与原始分割方法相同的损失函数，同时将所有类映射为两个每点的类，移动和非移动。

E. Moving Object Segmentation Benchmark

基于lidar的测程、目标检测和跟踪的大型数据集，如KITTI Vision Benchmark[14]，以及语义分割、全视分割和场景补全的大型数据集，如SemanticKITTI[3]，已经得到了广泛的应用。然而，对于基于3D激光雷达的运动物体分割，可用的数据集和基准并不多。通过这项工作，我们还旨在通过一个新的MOS基准任务来弥补这一差距。

我们提出的MOS基准是基于SemanticKITTI的。它使用与原始odometry数据集相同的训练和测试集分割，其中序列00到10用于训练，序列11到21用作测试集。SemanticKITTI共包含28个语义类，如车辆、行人、建筑物、道路等，并区分移动和不移动的车辆和人。在提出的MOS基准测试中，我们手动将所有类重新组织为两种类型:移动和非移动/静态对象。实际移动的车辆和人属于移动对象，所有其他类属于非移动/静态对象。

为了量化MOS性能，我们使用了常用的Jaccard Index或移动对象上的交集-过并(intersection-over-union, IoU)度量[12]，其由
在这里插入图片描述
其中TP, FP和FN对应于运动类的真阳性，假阳性和假阴性预测的数量。

4. EXPERIMENTAL EVALUATION

本文主要研究三维激光雷达扫描序列中运动目标的分割问题。我们提出了我们的实验来展示我们的方法的能力，并支持我们的关键主张，我们的方法:(i)仅使用3D激光雷达扫描实现运动物体分割，并且运行速度快于传感器帧速率10 Hz; (ii)通过使用残差图像提高运动物体分割性能，并且优于几个最先进的网络。

我们在提出的MOS基准上对所有方法进行了评估。我们使用SemanticKITTI提供的里程计信息，这些信息是通过基于lidar的SLAM系统SuMa[4]估计的。为了实现一个易于集成的算法，我们坚持原来的设置，**只将分类头的输入和输出改变为提出的二值标签。我们在序列00-07和09-10上使用它们特定的训练超参数超过150个epoch来训练每个网络，并保留序列08作为验证集。**关于每个网络的训练机制的更多细节，我们可以参考原文[8]，[16]，[19]。

在这里插入图片描述

A. Ablation Study on Input and Architecture

本节中提出的第一个消融研究旨在支持我们的说法，即我们的方法能够仅使用3D激光雷达扫描实现运动物体分割。本节的所有实验都在验证集上进行评估，即序列08。

我们用三种不同的网络(RangeNet++、SalsaNext和MINet)测试了三种不同的设置，用于移动对象分割，如表1所示。第一种设置是直接用运动和非运动类的标签训练三个基于距离投影的网络。第二种设置是将前一帧附加到当前帧上，作为网络的输入，产生2 × 5个输入通道，因为每个图像包含坐标(x, y, z)，范围r和每个像素的缓解e。第三种设置是将建议的残差图像连接到当前帧作为网络的输入，因此输入大小为5+N，详见第III-C节。

从表1中可以看出，RangeNet++和SalsaNext表现出基本的性能，而MINet在使用二进制标签和没有额外输入的情况下训练网络时失败。总的来说，性能还有改进的空间。这可能是由于从一帧中，语义分割网络无法很好地区分同一一般类的运动和静态对象，但可能会学到一些启发，例如道路上的汽车通常是运动的，而停车场上的汽车是静止的，这也可以从定性结果图5中看出。MINet失败的一个原因可能是由于轻量级架构不能学习这种启发式。
在这里插入图片描述
在第二种设置中，我们直接组合两个帧。在这里，网络已经可以在MOS中获得一些改进，因为它们可以从两次扫描中获得时间信息。在这种情况下，MINet还能够预测移动的物体。在第三种设置中，实现了最佳的MOS性能。我们假设直接获得残差信息而不是全范围视图是有利的。考虑到大多数点在连续的两帧中是冗余的，并且由于连接的原因输入量很大，如果直接提供残差，网络提取时间信息所需的时间更少。虽然一个足够大的网络应该能够在足够的时间内学习帧之间的差异概念，但Milioto等人[19]也表明，直接提供这些信息通常是有利的。

如图4所示，我们使用SalsaNext作为分割网络进行了两次进一步的消融研究。左图显示了用于MOS的残差图像数量的消融研究，这两项消融研究都使用SalsaNext作为分割网络。我们可以看到，N = 1幅残差图像对MOS性能的改善最大，而当N > 8幅残差图像时，添加更多的残差图像会进一步提高MOS性能，并且收益递减。右图显示了MOS性能与用于生成残余图像的相对里程计姿态中添加的噪声量的消融研究。我们以(0.1 m, 0.1 m, 1◦)为单位，手动向SLAM在(x, y，偏角)中估计的姿态添加噪声，以查看姿态估计在推断过程中如何影响我们的方法。可以看出，由于有噪声的姿态，MOS的性能会下降。但是，当加入的噪声大于20个单位(2m, 2m, 20◦)时，网络可能会忽略残余噪声图像，MOS性能不会变差。

B. MOS Performance and Comparisons

本节中提出的实验研究了我们的方法的MOS性能。它支持我们的方法通过使用残差图像来提高MOS性能，并且优于几个最先进的网络的说法。由于现有的基于lidar的MOS实现方法不多，我们选择了语义分割和场景流等类似任务中使用的几种方法，并对其进行修改以实现基于lidar的MOS。所有方法都在所提出基准的测试数据上进行了评估，即序列11-21。

我们分析了多种替代方法。我们开始使用现有的语义分割网络，例如salsanext[8]，直接将所有可移动的对象(例如车辆和人)标记为移动对象，而将其他对象标记为静态对象。我们将这个方法命名为SalsaNext(可移动类)。在这里，我们还展示了由重新训练的SalsaNext生成的结果，并提出了二元标签，命名为SalsaNext(重新训练)。由于残差图像已经可以指出运动物体的大致位置，这里我们也把它作为一个简单的基于启发式的基线，命名为残差。受Yoon等人[33]的启发，我们还利用残差信息，结合自由空间检查和区域生长，重新实现了基于纯几何启发式的方法，命名为残差+RG。

我们进一步将我们的方法与最先进的场景流方法FlowNet3D[17]进行了比较，该方法被称为SceneFlow，它是一个网络，在给定两次连续扫描作为输入的情况下，估计每个LiDAR点的平移流向量。我们对每个点的估计平移量设置一个阈值来决定每个点的标签，即平移量大于阈值的点被标记为移动。我们根据验证集上的最佳MOS性能来确定阈值。我们还将我们的方法与最先进的基于多点云的语义分割方法[26]，[28]进行了比较，因为它们也可以区分运动和非运动类。

对于非基于语义的方法，我们通过检查预测的运动物体是否可移动来额外添加语义信息，并且只有当一个点被原始方法预测为运动并且同时被分配给可移动的物体(例如车辆和人)时才将其标记为运动。语义信息使用SalsaNext与原始论文提供的预训练权重生成。我们通过添加+Semantics来识别语义增强的方法。

我们将我们的方法的两种设置与上述所有方法进行比较。对于我们的方法，我们选择SalsaNext作为基础网络，因为它在我们的消融研究中表现出最好的性能。在第一个设置中，我们只使用N = 1的残差图像来获得时间信息，在另一个设置中，我们使用固定在N = 8残差图像和语义信息的验证序列上的最佳设置来查看我们的方法的最佳性能。
在这里插入图片描述

如表2所示，当N = 1时，我们基于残差图像的方法已经优于大多数基线，但比基于密集多点云的语义分割方法KPConv差。由于计算量大，无法达到实时性。当我们的方法使用多个残差图像(N = 8)和语义信息时，我们的方法优于所有其他方法。

图5和图6分别展示了一种非常具有挑战性的情况下的距离图像和激光雷达扫描的定性结果，其中汽车位于十字路口，并且有大量的运动物体和静态物体。我们的方法可以区分运动点和静止点，即使某些运动物体运动缓慢，而其他方法无法检测到这一点。
在这里插入图片描述

C. Applications

我们提出的方法的两个明显的应用是基于激光雷达的里程计/SLAM以及3D测绘。在这里，我们通过使用MOS预测作为输入LiDAR扫描的掩模来展示我们方法的有效性，该方法有效地去除了属于移动物体的所有点。没有采取进一步的调整。我们为MOS使用了最好的设置，即我们的方法扩展了SalsaNext与N = 8残差图像和语义。

1) Odometry/Slam:

对于基于lidar的测程实验，我们使用现成的Slam方法[4]，并在将点云输入Slam管道之前应用我们的MOS方法。我们将改进的里程计结果与原始方法(称为SuMa)和我们的语义增强方法(suma++)[6]进行了比较。我们在KITTI里程计基准上评估了这些里程计方法:SuMa、SuMa++和SuMa+MOS[14]。

定量结果见表三。我们可以看到，通过简单地将我们的MOS预测作为预处理掩模，在KITTI训练和测试数据中，里程计结果都得到了改善，甚至比精心设计的语义增强的SuMa略好。
在这里插入图片描述

2) 3D Mapping:

如图7所示，我们将聚合的点云图(a)直接与原始LiDAR扫描进行比较，(b)将我们的MOS预测作为掩模，与清理后的LiDAR扫描进行比较。我们使用Open3D库[34]将映射结果可视化。可以看到，当用于定位或路径规划时，存在会污染地图的移动对象，这可能会产生对抗效果。

通过使用我们的MOS预测作为掩模，我们可以有效地去除这些工件并得到一个干净的地图。请注意，这里我们展示了我们的MOS方法的两个直接用例，没有使用任何进一步的优化。

在这里插入图片描述

D. Runtime

运行时在序列08上使用Intel i7-8700与3.2 GHz和单个Nvidia Quadro P6000图形卡进行评估。估计距离并生成残差图像平均需要10 ms左右。由于我们在保持体系结构不变的情况下只改变每个网络的输入，因此推理时间几乎与以前相同，具体来说，RangeNet++为75 ms, SalsaNext为42 ms, MINet为21 ms。在对MOS使用语义的情况下，我们可以并行运行第二个全语义网络。

由于SLAM的测程历史是可用的，我们只需要对每个传入帧估计姿态并生成一次残差图像。总之，使用我们的方法进行基于激光雷达的里程测量使用SalsaNext大约需要51ms每次扫描 (= 20hz)，这比典型LiDAR传感器的帧速率(即10hz)快。