【MOS】《RVMOS: Range-View Moving Object Segmentation Leveraged by Semantic and Motion Features》


看名字就知道是RV

算法特点

  1. 结合了运动和语义特征,每个特征都对物体的运动和物体的周围环境进行编码
  2. 设计了一个适合于RV的特征提取模块(FEM)
  3. 简单有效的数据增强方法:时间间隔调制和零残差图像合成

数据处理

本网络参考了LMNet,使用了RV和残差图像两种输入

RV生成:如常
残差图像生成
设RV图像为

则残差图像由公式(3)得到

对于公式(3)中的计算,我们忽略距离值超出 0.2 m 到 50 m 范围的无效像素,且使用 SemanticKitti 数据集中提供的相对姿态 Pk。
在生成残差图像过程中,算法仅使用了五通道 LiDAR 数据中的range通道 rk,k定为5.

这一段的残差图像生成和LMNet的是一样的,网络最主要的是改变了残差图像的使用方法而非生成方法,需要注意一下

网络结构


语义网络,运动网络,融合网络

  1. 语义网络:找到是什么物体。仅使用当前帧作为输入,因为单帧即可完成语义分割。
  2. 运动网络:找到运动。使用给定当前帧和前一帧的残差图像作为输入。
  3. 融合网络:利用空间和维度级别的注意力机制,融合语义和运动网络中的中间特征层,在给定融合特征的情况下预测运动目标的概率图,封装了运动目标及其运动信息。

网络结构-----特征提取模块

问题1:RV图像是通过投射360◦激光雷达点到一个2D平面,以获得扭曲的3D几何形状,与原物体大小有差距,这使得分割物体变得困难。
问题2:RV图捕获的是3D空间中垂直拉长的单位像素区域,这意味着典型的卷积运算提取到的特征是扭曲后的三维几何形状。

为解决问题1,我们设计了具有堆叠的多个扩张卷积层的特征提取模块(FEM)。该模块由三个卷积层组成,前两个卷积层kernel大小为 3 × 3扩长速率为 1 和 3 ,第三层是 1 × 1 的卷积层,用于CBAM进行特征细化。

为了缓解垂直方向的扭曲,我们在特征提取模块中使用垂直延长池化 (即 4 × 2 maxpooling,垂直方向步幅更大) 来代替常见的矩形池化操作。该操作补偿了扭曲的长宽比,并有助于提取反映更接近真实世界的3D几何形状的特征。

其中,CBAM为卷积注意力机制模块

数据增强

way1. 时间间隔调制—利用较短的时间间隔生成更多的残差帧,即放大k到某个倍数,这样抽帧抽的更多,描绘的是比真实运动更慢的运动,可以有效地处理移动较慢的物体

这一操作主要通过调整公式(4)中 τ 的大小来实现,推理阶段 τ=2 ,训练阶段 τ=[1,2]

way2. 零残差图像合成—以相当慢的速度运动的物体几乎捕获不到motion,算法通过残差图像和相对应的全为零的motion数据来解决,使用合成的残差图像作为运动网络的输入,并使用运动地图对网络进行监督

训练方法

  1. 损失函数为语义、运动和融合损失的总和:

    公式(5)中的 Loss 为 Lovasz-Softmax Loss (就是一种把 IoU Score 作为进行优化的损失函数的方法)
  2. 三个网络同时训练(和GAN不同)
  3. 不使用任何预训练的权重,所有网络从头开始训练

用SemanticKitti数据集训练,00-10训练,08验证

实验结果

在低速和大型目标上效果很好
在 NVIDIA RTX 3090 上与 LMNet 进行了对比实验。此算法的 mIoU 提高了 19% ,运行速度提高了 10% ,参数减少了 60.8%

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值