【MOS】LMNet——《Moving Object Segmentation in 3D LiDAR Data: A Learning-based Approach Exploiting Seque-CSDN博客

本文链接：https://blog.csdn.net/qq_51954707/article/details/137642476

文章目录

“我们的方法不是对点云进行语义分割，即预测车辆、行人、道路等语义类别，而是准确地将场景分割为移动和静态对象，即还区分移动的汽车和停放的汽车”

使用了距离图像和残差图像，很多之后的论文以此为启发

生成距离图像

使用点云的范围投影来生成图像表示，使用公式（1），u v是图像坐标，x y z是点云坐标，h w是高度和宽度，f是传感器的垂直视场，

通过此公式，我们提取每个 pi 的范围 r、x、y 和 z 坐标及其反射 e，并将它们存储在图像中

生成残差图像

给定一个时间序列，不同时间之间点云的不同，即连续扫描之间估计的相对姿势，可以用来判断物体的运动与否
将第k次扫描结果变换到第l次扫描的坐标系中，所使用的公式（2）为：

受Wang等人利用RGB视频帧之间的差异进行动作识别的启发，我们提出使用基于lidar的残差图像与距离图像上的像素化二值标签来分割运动物体

中心操作，very smart

为了生成残差图像并将其融合到当前距离图像中，需要进行变换和重投影。为了实现这一点，我们提出了一个三步的过程:

根据公式（2）中定义的变换估计，我们通过将以前的扫描转换为当前的局部坐标系来补偿自我运动
转换后的点云，使用公式（1）-球投影-将l重新投影到当前距离图像视图中，转化为range image。
通过计算当前帧与转换后的帧的距离之间的归一化绝对差，如公式（3）

残差图像作为附加通道与当前距离图像连接，其中距离图像提供空间信息，残差图像提供时间信息。最终，融合距离图像中的每个像素包含不同类型信息的向量

使用已有的网络

本文中并未设计新的分割CNN，而是重用了过去成功应用于基于lidar的语义分割的网络：SalsaNet, RangeNet++, MINet

本文没有改变这些分割网络的架构，而是直接向它们提供融合的距离图像和残差信息，重新训练网络并使用新提出的 MOS 基准评估它们的性能

实验评估部分

作者对比了多种现有的方法，包括直接使用语义分割网络（如SalsaNext）、基于几何启发式的方法（如仅使用残差图像的方法和结合了自由空间检查与区域增长的方法），以及基于场景流的方法（如SceneFlow）。此外，还比较了多种基于点云的语义分割方法，并为非语义方法添加了语义信息。

实验结果显示，仅使用一帧图像的方法（One frame）在移动对象分割任务上的表现有限，而使用两帧图像（Two frames）的方法能够获得一些改进。最好的性能是通过将残差图像与当前帧结合作为网络输入的方法（Residual frames），这表明直接提供时间信息对于提高分割性能是非常有利的。

具体到数值结果，使用一个残差图像（N=1）的方法（Ours (based on SalsaNext/N = 1)）在IoU（交并比）指标上达到了52.0%，而当使用八个残差图像并结合语义信息的方法（Ours (based on SalsaNext/N = 8 + Semantics)）时，IoU指标提高到了62.5%，这表明该方法在处理城市环境中的移动对象分割任务时，能够有效地区分移动和静态对象，并且在性能上超越了多个现有的最先进方法。

此外，文献还提出了一个新的基于SemanticKITTI数据集的移动对象分割基准测试，以便于其他研究人员可以透明地比较他们的方法，并且作者还发布了他们的代码，以便其他研究者可以使用和参考。