【MOS】LMNet——《Moving Object Segmentation in 3D LiDAR Data: A Learning-based Approach Exploiting Seque


“我们的方法不是对点云进行语义分割,即预测车辆、行人、道路等语义类别,而是准确地将场景分割为移动和静态对象,即还区分移动的汽车和停放的汽车”

使用了距离图像和残差图像,很多之后的论文以此为启发

生成距离图像

使用点云的范围投影来生成图像表示,使用公式(1),u v是图像坐标,x y z是点云坐标,h w是高度和宽度,f是传感器的垂直视场,

通过此公式,我们提取每个 pi 的范围 r、x、y 和 z 坐标及其反射 e,并将它们存储在图像中

生成残差图像

给定一个时间序列,不同时间之间点云的不同,即连续扫描之间估计的相对姿势,可以用来判断物体的运动与否
将第k次扫描结果变换到第l次扫描的坐标系中,所使用的公式(2)为:

受Wang等人利用RGB视频帧之间的差异进行动作识别的启发,我们提出使用基于lidar的残差图像与距离图像上的像素化二值标签来分割运动物体

中心操作,very smart

为了生成残差图像并将其融合到当前距离图像中,需要进行变换和重投影。为了实现这一点,我们提出了一个三步的过程:

  1. 根据公式(2)中定义的变换估计,我们通过将以前的扫描转换为当前的局部坐标系来补偿自我运动
  2. 转换后的点云,使用公式(1)-球投影-将l重新投影到当前距离图像视图中,转化为range image。
  3. 通过计算当前帧与转换后的帧的距离之间的归一化绝对差,如公式(3)

残差图像作为附加通道与当前距离图像连接,其中距离图像提供空间信息,残差图像提供时间信息。最终,融合距离图像中的每个像素包含不同类型信息的向量

使用已有的网络

本文中并未设计新的分割CNN,而是重用了过去成功应用于基于lidar的语义分割的网络:SalsaNet, RangeNet++, MINet

本文没有改变这些分割网络的架构,而是直接向它们提供融合的距离图像和残差信息,重新训练网络并使用新提出的 MOS 基准评估它们的性能

实验评估部分

作者对比了多种现有的方法,包括直接使用语义分割网络(如SalsaNext)、基于几何启发式的方法(如仅使用残差图像的方法和结合了自由空间检查与区域增长的方法),以及基于场景流的方法(如SceneFlow)。此外,还比较了多种基于点云的语义分割方法,并为非语义方法添加了语义信息。

实验结果显示,仅使用一帧图像的方法(One frame)在移动对象分割任务上的表现有限,而使用两帧图像(Two frames)的方法能够获得一些改进。最好的性能是通过将残差图像与当前帧结合作为网络输入的方法(Residual frames),这表明直接提供时间信息对于提高分割性能是非常有利的。

具体到数值结果,使用一个残差图像(N=1)的方法(Ours (based on SalsaNext/N = 1))在IoU(交并比)指标上达到了52.0%,而当使用八个残差图像并结合语义信息的方法(Ours (based on SalsaNext/N = 8 + Semantics))时,IoU指标提高到了62.5%,这表明该方法在处理城市环境中的移动对象分割任务时,能够有效地区分移动和静态对象,并且在性能上超越了多个现有的最先进方法。

此外,文献还提出了一个新的基于SemanticKITTI数据集的移动对象分割基准测试,以便于其他研究人员可以透明地比较他们的方法,并且作者还发布了他们的代码,以便其他研究者可以使用和参考。

Visual segmentation is one of the most important tasks in computer vision, which involves dividing an image into multiple segments, each of which corresponds to a different object or region of interest in the image. In recent years, transformer-based methods have emerged as a promising approach for visual segmentation, leveraging the self-attention mechanism to capture long-range dependencies in the image. This survey paper provides a comprehensive overview of transformer-based visual segmentation methods, covering their underlying principles, architecture, training strategies, and applications. The paper starts by introducing the basic concepts of visual segmentation and transformer-based models, followed by a discussion of the key challenges and opportunities in applying transformers to visual segmentation. The paper then reviews the state-of-the-art transformer-based segmentation methods, including both fully transformer-based approaches and hybrid approaches that combine transformers with other techniques such as convolutional neural networks (CNNs). For each method, the paper provides a detailed description of its architecture and training strategy, as well as its performance on benchmark datasets. Finally, the paper concludes with a discussion of the future directions of transformer-based visual segmentation, including potential improvements in model design, training methods, and applications. Overall, this survey paper provides a valuable resource for researchers and practitioners interested in the field of transformer-based visual segmentation.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值