看名字就知道是RV
算法特点
- 结合了运动和语义特征,每个特征都对物体的运动和物体的周围环境进行编码
- 设计了一个适合于RV的特征提取模块(FEM)
- 简单有效的数据增强方法:时间间隔调制和零残差图像合成
数据处理
本网络参考了LMNet,使用了RV和残差图像两种输入
RV生成:如常
残差图像生成:
设RV图像为
则残差图像由公式(3)得到
对于公式(3)中的计算,我们忽略距离值超出 0.2 m 到 50 m 范围的无效像素,且使用 SemanticKitti 数据集中提供的相对姿态 Pk。
在生成残差图像过程中,算法仅使用了五通道 LiDAR 数据中的range通道 rk,k定为5.
这一段的残差图像生成和LMNet的是一样的,网络最主要的是改变了残差图像的使用方法而非生成方法,需要注意一下
网络结构
语义网络,运动网络,融合网络
- 语义网络:找到是什么物体。仅使用当前帧作为输入,因为单帧即可完成语义分割。
- 运动网络:找到运动。使用给定当前帧和前一帧的残差图像作为输入。
- 融合网络:利用空间和维度级别的注意力机制,融合语义和运动网络中的中间特征层,在给定融合特征的情况下预测运动目标的概率图,封装了运动目标及其运动信息。
网络结构-----特征提取模块
问题1:RV图像是通过投射360◦激光雷达点到一个2D平面,以获得扭曲的3D几何形状,与原物体大小有差距,这使得分割物体变得困难。
问题2:RV图捕获的是3D空间中垂直拉长的单位像素区域,这意味着典型的卷积运算提取到的特征是扭曲后的三维几何形状。
为解决问题1,我们设计了具有堆叠的多个扩张卷积层的特征提取模块(FEM)。该模块由三个卷积层组成,前两个卷积层kernel大小为 3 × 3 ,扩长速率为 1 和 3 ,第三层是 1 × 1 的卷积层,用于CBAM进行特征细化。
为了缓解垂直方向的扭曲,我们在特征提取模块中使用垂直延长池化 (即 4 × 2 maxpooling,垂直方向步幅更大) 来代替常见的矩形池化操作。该操作补偿了扭曲的长宽比,并有助于提取反映更接近真实世界的3D几何形状的特征。
其中,CBAM为卷积注意力机制模块
数据增强
way1. 时间间隔调制—利用较短的时间间隔生成更多的残差帧,即放大k到某个倍数,这样抽帧抽的更多,描绘的是比真实运动更慢的运动,可以有效地处理移动较慢的物体
这一操作主要通过调整公式(4)中 τ 的大小来实现,推理阶段 τ=2 ,训练阶段 τ=[1,2]
way2. 零残差图像合成—以相当慢的速度运动的物体几乎捕获不到motion,算法通过残差图像和相对应的全为零的motion数据来解决,使用合成的残差图像作为运动网络的输入,并使用运动地图对网络进行监督
训练方法
- 损失函数为语义、运动和融合损失的总和:
公式(5)中的 Loss 为 Lovasz-Softmax Loss (就是一种把 IoU Score 作为进行优化的损失函数的方法) - 三个网络同时训练(和GAN不同)
- 不使用任何预训练的权重,所有网络从头开始训练
用SemanticKitti数据集训练,00-10训练,08验证
实验结果
在低速和大型目标上效果很好
在 NVIDIA RTX 3090 上与 LMNet 进行了对比实验。此算法的 mIoU 提高了 19% ,运行速度提高了 10% ,参数减少了 60.8%