【MOS】《RVMOS: Range-View Moving Object Segmentation Leveraged by Semantic and Motion Features》-CSDN博客

本文链接：https://blog.csdn.net/qq_51954707/article/details/137830128

看名字就知道是RV

本网络参考了LMNet，使用了RV和残差图像两种输入

RV生成：如常
残差图像生成：
设RV图像为

则残差图像由公式（3）得到

对于公式(3)中的计算，我们忽略距离值超出 0.2 m 到 50 m 范围的无效像素，且使用 SemanticKitti 数据集中提供的相对姿态 Pk。
在生成残差图像过程中，算法仅使用了五通道 LiDAR 数据中的range通道 rk，k定为5.

这一段的残差图像生成和LMNet的是一样的，网络最主要的是改变了残差图像的使用方法而非生成方法，需要注意一下

语义网络，运动网络，融合网络

问题1：RV图像是通过投射360◦激光雷达点到一个2D平面，以获得扭曲的3D几何形状，与原物体大小有差距，这使得分割物体变得困难。
问题2：RV图捕获的是3D空间中垂直拉长的单位像素区域，这意味着典型的卷积运算提取到的特征是扭曲后的三维几何形状。

为解决问题1，我们设计了具有堆叠的多个扩张卷积层的特征提取模块(FEM)。该模块由三个卷积层组成，前两个卷积层kernel大小为 3 × 3 ，扩长速率为 1 和 3 ，第三层是 1 × 1 的卷积层，用于CBAM进行特征细化。

为了缓解垂直方向的扭曲，我们在特征提取模块中使用垂直延长池化 (即 4 × 2 maxpooling，垂直方向步幅更大) 来代替常见的矩形池化操作。该操作补偿了扭曲的长宽比，并有助于提取反映更接近真实世界的3D几何形状的特征。

其中，CBAM为卷积注意力机制模块

way1. 时间间隔调制—利用较短的时间间隔生成更多的残差帧，即放大k到某个倍数，这样抽帧抽的更多，描绘的是比真实运动更慢的运动，可以有效地处理移动较慢的物体

这一操作主要通过调整公式（4）中 τ 的大小来实现，推理阶段 τ=2 ，训练阶段 τ=[1,2]

way2. 零残差图像合成—以相当慢的速度运动的物体几乎捕获不到motion，算法通过残差图像和相对应的全为零的motion数据来解决，使用合成的残差图像作为运动网络的输入，并使用运动地图对网络进行监督

损失函数为语义、运动和融合损失的总和:

公式（5）中的 Loss 为 Lovasz-Softmax Loss （就是一种把 IoU Score 作为进行优化的损失函数的方法）
三个网络同时训练（和GAN不同）
不使用任何预训练的权重，所有网络从头开始训练

用SemanticKitti数据集训练，00-10训练，08验证

在低速和大型目标上效果很好
在 NVIDIA RTX 3090 上与 LMNet 进行了对比实验。此算法的 mIoU 提高了 19% ，运行速度提高了 10% ，参数减少了 60.8%