* 4D稀疏卷积—加速
* Receding Horizon Strategy—在线
* Binary Bayes Filter—鲁棒性
“与语义分割任务相比,3D LiDAR数据中的运动物体分割不需要复杂的语义类概念和广泛的标记来监督基于学习的方法或评估其性能。相反,目标是预测局部点云结构是在空间和时间上移动,还是保持静态”
之前的解决方法:加入时间序列,如BEV或者残差图像,但这些离线方法一般都需要整个时间序列的扫描结果
-
离线方法:指的是那些在数据采集完成后,在没有实时交互或实时更新的情况下进行处理和分析的算法或技术。在移动对象分割(Moving Object Segmentation, MOS)的背景下,离线方法意味着算法处理的数据是预先录制或存储的,而不是实时从传感器接收的
-
在线方法:指在数据生成或收集的同时进行处理和分析的算法或技术。这种方法需要系统能够实时或近实时地响应输入数据的变化,并做出相应的处理或决策。在线方法特别适用于需要即时反馈和适应动态环境的应用场景,例如自动驾驶汽车、机器人导航、实时监控系统等
本文:在线预测激光雷达扫描的短序列运动物体,利用稀疏四维卷积从输入点云序列中联合提取时空特征
本文核心
提出了一种新的运动目标分割方法,该方法在Minkowski引擎上构建的LiDAR点云序列上联合应用稀疏4D卷积(与密集卷积相比,稀疏卷积的主要优点是计算速度加快,储存效率高)。该方法在线操作,不需要预先构建的地图表示,且使用后退视界策略
(Minkowski引擎(Minkowski Engine)是一个开源的C++库,专门设计用于处理点云数据和进行三维空间分析。它提供了一组高效的数据结构和算法,用于处理点云、网格、体积数据和其他三维几何对象。Minkowski引擎特别适用于计算机视觉、机器人学、地理信息系统(GIS)和三维建模等领域)
处理步骤
- 将之前时间序列 S1,…,SN−1 的点云转换到当前 S0 的扫描视点
- 创建稀疏的4D张量
- 使用稀疏卷积提取时空特征,预测序列中每个点实际移动的置信度分数输出
- 当有新的时间序列扫描结果加入,则滑动窗口
为什么要做第一步?
在序列中局部对齐扫描的动机是,我们的CNN应该专注于随时间在空间中移动的局部点模式,姿势信息对此有所帮助
在对齐变换之后,我们将齐次坐标转换为笛卡尔坐标,并将时间作为额外的维度,将对齐的扫描结果聚合成一个四维点云,从而得到点pi的坐标[xi, yi, zi, ti]
之后,我们将4D点云量化为一个在时间Δt和空间Δs上具有固定分辨率的稀疏体素网格(how?)
我们使用了一种改进的MinkUNet14,它是 残差瓶颈 (residual bottelneck)架构的稀疏等效,使用 跨行稀疏卷积 对特征映射进行下采样,并使用 跨行稀疏转置卷积 进行上采样。UNet方式的跳过连接有助于维护细节和细粒度预测。我们减少了网络中特征通道的数量,得到了一个相对较小的,具有1.8M参数的模型,之后加softmax生成0-1之间的置信度输出
后退视界策略
全稀疏卷积架构预测的是输入序列中所有点的运动对象置信度分数。关于预测策略,一种选择是将输入数据划分为固定的、不重叠的区间,并预测每个子序列一次。
相反,本文提出了一种不同的策略,即后退视界策略。当LiDAR传感器获得下一个点云时,我们将其添加到输入序列中,并丢弃最老的扫描,从而形成先入先出队列。
主要的优点是,我们可以根据新的观察结果重新估计移动的物体,从而增加用于预测的时间范围。
使用二值贝叶斯滤波器(Binary Bayes Filter)递归地融合它们,这使得延长用于分割的时间跨度成为可能,并有助于预测在初始时间范围内只移动了一小段距离的缓慢移动的物体
更正式地说,对于扫描 Sj,我们可以通过融合先前观测到的包含扫描 Sj 的点云序列 z0:t (zt表示观察到的输入点云序列) 中的所有预测移动物体置信度分数,来估计 t 时刻的移动物体
我们希望估算截至时间 t 所有点的移动状态 m(j) 的联合概率分布,用公式(2)表示
其中,m(j) i∈{0,1} 表示点 pi∈Sj 在 Sj 中的运动状态
之后将贝叶斯规则应用于(2)中的每点概率分布 p(mi | z0:t) ,并遵循递归二值贝叶斯滤波器的标准推导。贝叶斯滤波器的解释如下:
更多详解见上图文章出处与更详细公式推导
个人理解:此处滤波并非信号中的高频低频滤波,而是一种估计某时刻状态的方法,利用已知观测或动作来估计当前状态或隐状态的手段
对(2)使用贝叶斯递归滤波器,并以logit函数的形式呈现,最终得到:
其中 l(mi|zt) 表示在时刻 t 移动的概率的对数.如果我们在时间t没有观察到点pi,则没有预测,不更新递归项l.
之前网络的输出为置信度,对应到上述概率即为:在时刻 t ,对于当前输入序列 Zt 中有 Mj 个点的每个点云 Sj :
则根据一般的logit函数公式,得到l(mi|zt)对于此概率的公式为:
(3)(4)(5)联立,反解出
由此可得最终置信度,若大于0.5则认为该点运动
一个滑动窗口和贝叶斯滤波器融合的示意图,不是很清楚
实验评估
主要评估IoU
上图反映了不同窗口大小(N=2/5/10)和不同时间分辨率以及不同 P0 对IoU的影响,其中横轴为 P0 。
P0:logit函数中的先验概率,l(mi) = log(P0/1-P0)
得到的经验是
- 对于场景中许多缓慢移动的物体,设置较低的先验有助于将它们保持在最终的预测中,即使它们没有被及时预测到从所有可用实例中移动。
- 使用 N = 5 个输入扫描且具有较大时间分辨率(Δt = 0.2 s 到 Δt = 0.3 s)的模型优于具有相同处理扫描次数但较小分辨率(Δt = 0.1 s)的模型。这表明,更长的时间范围可以更好地分割缓慢移动的对象,因为它们的运动在序列中更明显。