[2020]DOT: Dynamic Object Tracking for Visual SLAM
1.作者
Irene Ballester, Alejandro Fontan, Javier Civera,Klaus H. Strobl, Rudolph Triebel
2.时间
2020
3.整体架构
- 实例分割出所有潜在的运动目标(像素级分割)(网络: Detectron2 )
- image Processing部分提取和分类在静止区域的点和在动态目标上的点,利用静止场景的特征点求解相机的位姿,每个分割的目标的运动的估计是独立的。
- 运动状态判断。
- mask传播。
4.中心思想
1.相机和目标的追踪
这里估计分两步,第一步先估计相机的位姿,第二步根据相机的位姿估计目标的运动
- 对于相机的位姿Tc∈SE3
位姿通过最小化光度误差获得,如下公式:
- 对于目标的运动
每个目标的运动可以通过这个目标上的像素点采用和相机位姿相似的方法进行估计,最小化光度误差,如下公式:
2.运动状态判断
对于每个目标,计算动态视差的中位数。
- 动态视差:一个像素点的实际投影点 和 假设这个点是静止的,通过Tc投影过去的投影点 的像素距离
得到目标运动估计的不确定性
假设服从高斯分布,他的微分熵为:
高的微分熵将产生大的像素位移,低的微分熵将产生小的像素位移
- 一个以 f(x)为密度函数的连续随机变量X的微分熵(differential entropy)定义 为:
- 正态分布的微分熵:
可变阈值:
判断是静止的:
- 微分熵低于一个阈值
- 动态视差低于可变阈值
判断是运动的:
3.Mask传播
mask的来源:
- 语义分割
- 前一帧图像的传播
好处:
- 产生先前已存在的目标的新的实例可以用来预测他们的运动
- 如果一个运动的目标在某处无法观察到时,仍然可以持续对其运动进行判断。
- 减少了每帧都需要mask的需求,毕竟深度学习在一般平台上为低帧率。
5.结果
1.实验结果
2.将mask加载ORB_SLAM2上评估位姿的精度
- 绝对轨迹误差(ATE): 估计位姿和真实位姿的直接差值,可以非常直观地反应算法精度和轨迹全局一致性。需要注意的是,估计位姿和groundtruth通常不在同一坐标系中,因此我们需要先将两者对齐,需要估计一个变换矩阵 S∈SE(3)
- 注意:ATE/ATE(best)栏绿色为最好,红色为最差。
- 误差归一化:
V-KITTI
- 比没有mask和全部mask的分别好 92.6% 和 37.8%
KITTI Odometry
- 这个数据集的动态元素较少,纹理信息丰富,比没有mask和全部mask的分别好12.7% 和30.3%
- 相机真实的位姿是通过GPS确定的,误差在10cm左右
KITTI Raw :
动态目标比较多,比没有mask和全部mask的分别好 142.3% 和15.9 %
结论1:
在静止或者运动的场景,性能都有提升,如果不提出运动目标,那么会造成轨迹的误差,如果将所有目标的mask区域都抛弃掉,将丢失大量的信息。
结论2:
DOT可以通过mask的传播校正神经网络的错误分割,比如将交通信号灯或者建筑等静止物体识别为动的。
2.Mask传播