“我们的方法不是对点云进行语义分割,即预测车辆、行人、道路等语义类别,而是准确地将场景分割为移动和静态对象,即还区分移动的汽车和停放的汽车”
使用了距离图像和残差图像,很多之后的论文以此为启发
生成距离图像
使用点云的范围投影来生成图像表示,使用公式(1),u v是图像坐标,x y z是点云坐标,h w是高度和宽度,f是传感器的垂直视场,
通过此公式,我们提取每个 pi 的范围 r、x、y 和 z 坐标及其反射 e,并将它们存储在图像中
生成残差图像
给定一个时间序列,不同时间之间点云的不同,即连续扫描之间估计的相对姿势,可以用来判断物体的运动与否
将第k次扫描结果变换到第l次扫描的坐标系中,所使用的公式(2)为:
受Wang等人利用RGB视频帧之间的差异进行动作识别的启发,我们提出使用基于lidar的残差图像与距离图像上的像素化二值标签来分割运动物体
中心操作,very smart
为了生成残差图像并将其融合到当前距离图像中,需要进行变换和重投影。为了实现这一点,我们提出了一个三步的过程:
- 根据公式(2)中定义的变换估计,我们通过将以前的扫描转换为当前的局部坐标系来补偿自我运动
- 转换后的点云,使用公式(1)-球投影-将l重新投影到当前距离图像视图中,转化为range image。
- 通过计算当前帧与转换后的帧的距离之间的归一化绝对差,如公式(3)
残差图像作为附加通道与当前距离图像连接,其中距离图像提供空间信息,残差图像提供时间信息。最终,融合距离图像中的每个像素包含不同类型信息的向量
使用已有的网络
本文中并未设计新的分割CNN,而是重用了过去成功应用于基于lidar的语义分割的网络:SalsaNet, RangeNet++, MINet
本文没有改变这些分割网络的架构,而是直接向它们提供融合的距离图像和残差信息,重新训练网络并使用新提出的 MOS 基准评估它们的性能
实验评估部分
作者对比了多种现有的方法,包括直接使用语义分割网络(如SalsaNext)、基于几何启发式的方法(如仅使用残差图像的方法和结合了自由空间检查与区域增长的方法),以及基于场景流的方法(如SceneFlow)。此外,还比较了多种基于点云的语义分割方法,并为非语义方法添加了语义信息。
实验结果显示,仅使用一帧图像的方法(One frame)在移动对象分割任务上的表现有限,而使用两帧图像(Two frames)的方法能够获得一些改进。最好的性能是通过将残差图像与当前帧结合作为网络输入的方法(Residual frames),这表明直接提供时间信息对于提高分割性能是非常有利的。
具体到数值结果,使用一个残差图像(N=1)的方法(Ours (based on SalsaNext/N = 1))在IoU(交并比)指标上达到了52.0%,而当使用八个残差图像并结合语义信息的方法(Ours (based on SalsaNext/N = 8 + Semantics))时,IoU指标提高到了62.5%,这表明该方法在处理城市环境中的移动对象分割任务时,能够有效地区分移动和静态对象,并且在性能上超越了多个现有的最先进方法。
此外,文献还提出了一个新的基于SemanticKITTI数据集的移动对象分割基准测试,以便于其他研究人员可以透明地比较他们的方法,并且作者还发布了他们的代码,以便其他研究者可以使用和参考。