论文标题:
Khronos: A Unified Approach for Spatio-Temporal Metric-Semantic SLAM in Dynamic Environments
论文作者:
Lukas Schmid, Marcus Abate, Yun Chang, and Luca Carlone
项目地址:
https://github.com/MIT-SPARK/Khronos
导读: MIT团队提出一个解决语义度量化的同时定位与建图问题的系统框架Khronos,可以解释长期短期的动态变化,并且能够实时构建密集的时空地图。真实环境会经历短期和长期的变化,而当前的研究都没有对这两种变化进行推理的统一方法。该研究团队将该问题进行简化,对传感器噪声,状态估计误差,动态对象和长期变化引起的误差进行分解。©️【深蓝AI】编译
1. 摘要
感知和理解高动态变化的环境是自主机器人的一个重要能力。虽然动态SLAM方法已经在准确估计机器人姿态的方向取得了很多进步,但是对机器人环境的密集时空表示仍然不够重视。详细了解场景随时间的演变对于机器人的长期自主性和长期推理任务都至关重要。该项研究工作定义了时空度量语义化的SLAM问题(Spatio-temporal Metric-semantic SLAM,SMS),并提出一个有效解决该问题的框架。研究人员表明,他们提出的分解框架表明了时空感知系统的构成,其中快速的过程跟踪活动时间窗口中的动态,而较慢的过程使用因子图对环境的长期变化进行推理。研究团队称这个框架系统为Khronos,这个系统可以解释长期短期的动态变化,并且能够实时构建密集的时空地图。
2. 工作概述
为了使机器人在人类居住的环境中安全有效地运行,机器人需要对周围的世界有足够的了解。通常,人所处的环境时高动态变化的。人、机器人、其他实体会不断移动交互和修改场景。对于在这种情况下运行的机器人来说,仅在单个时间快照下构建世界模型是不够的,它们还需要拥有推理过去场景状态的能力。
语义度量化的同时定位与建图(SLAM)要求机器人实时构建场景的语义注释和几何表示。几何信息帮助机器人安全导航和操纵物体,而语义信息则为机器人提供理解以执行人类指令,并为人类提供易于理解的环境模型。为了实时构建这些密集的语义表示,通常假设世界是静态的,并将带有噪声的几何和语义信息融合到语义模型中。但是这个假设通常限制了机器人可以操作的环境。虽然已经有大量的针对动态SLAM的工作,但是这些方法基本都只关注短期动态,例如当前在镜头前移动的人或物体,很少有关注长期变化的方法(比如家具被重新布置)。真实环境会经历短期和长期的变化,而当前的研究都没有对这两种变化进行推理的统一方法。
所以研究人员引入时空度量语义化问题,其目的是在机器人导航场景中始终增量地构建一个密集的语义模型。Khronos方法的中心思想是开发一种基于时空局部一致性的SMS问题的新分解,它可以对传感器噪声、状态估计误差、动态对象和长期变化引起的误差进行分解。
3. 问题描述
假设场景由许多物体组成 O i ∈ O O_{i}\in O Oi∈O,场景的整体背景也可以由静态物体组成 O B G ∈ O O_{BG}\in O OBG∈O,定义时空语义度量化的SLAM问题,在时刻 t t t下每个物体 i i i的状态为 O i t O_{i}^{t} Oit:
O i t = { Ω i t , T W O i t , L i } O_{i}^{t}=\{\Omega_{i}^{t},T_{WO_{i}}^{t},L_{i}\} Oit={Ωit,TWOit,Li}
分别表示在不同离散时间 t t t下的物体表面,世界坐标系下的位姿和物体的语义标签。背景物体认为是静态不动的。
机器人位姿 X X X表示如下:
X = { X t } t = 0 , ⋯ , T , X t = T W R t X=\{X^{t}\}^{t=0,\cdots,T},X^{t}=T_{WR}^{t} X={Xt}t=0,⋯,T,Xt=TWRt
在下文中,使用省略索引和时间步长的索引变量的简写符号来引用所有现有的索引和时间步长,例如:
O i = { O i t } t = 0 , ⋯ , T , O = { O i t } i = 0 , ⋯ , N t t = 0 , ⋯ , T O_{i}=\{O_{i}^{t}\}^{t=0,\cdots,T},O=\{O_{i}^{t}\}_{i=0,\cdots,N^{t}}^{t=0,\cdots,T} Oi={Oit}t=0,⋯,T,O={Oit}i=0,⋯,Ntt=0,⋯,T
在时刻 t t t时,机器人观察单个空间单位 V V V时的测量表示:
Z j t = { Ω j t , T R Z j t , L j t } , Z j t ∼ O i t ⊕ η O Z_{j}^{t}=\{\Omega_{j}^{t},T_{RZ_{j}}^{t},L_{j}^{t}\}, Z_{j}^{t} \sim O_{i}^{t}\oplus \eta_{O} Zjt={Ωjt,TRZjt,Ljt},Zjt∼Oit⊕ηO
Ω \Omega Ω是测量的物体表面信息, T T T是物体位姿, L L L是语义标签。所有的测量噪声总结为,除了对 V V V进行视觉测量外,机器人同时使用里程计测量:
ϕ t ∼ ( X t − 1 ) − 1 X t ⊕ η ϕ \phi^{t}\sim(X^{t-1})^{-1}X^{t}\oplus\eta_{\phi} ϕt∼(Xt−1)−1Xt⊕ηϕ
SMS问题的目标是建立对场景的实时时空理解。在当前时刻 T T T,需要估计所有t<T时刻的场景状态。这个可以构建为最大后验(MAP)估计问题:
O ∗ , X ∗ = a r g m a x P ( O , X ∣ Z , ϕ ) O^{*},X^{*}=argmax P(O,X|Z,\phi) O∗,X∗=argmaxP(O,X∣Z,ϕ)
对以上问题进行分解,
P ( O , X , Y , A ∣ Z , ϕ ) = ∏ i P ( O i ∣ Y i ˉ , X ) ⏟ F r a g m e n t r e c o n c i l i a t i o n P ( X , A ∣ Y , ϕ ) ⏟ S L A M ∏ k P ( Y k ∣ Z ˉ k , ϕ k ˉ ) ⏟ L o c a l e s t i m a t i o n P(O,X,Y,A|Z,\phi)=\underbrace{\prod _{i}P(O_{i}|\bar{Y_{i}},X )}_{Fragment\ reconciliation} \underbrace{P(X,A|Y,\phi)}_{SLAM} \underbrace{\prod_{k}P(Y_{k}|\bar{Z}_{k},\bar{\phi_{k}} )} _{Local\ estimation} P(O,X,Y,A∣Z,ϕ)=Fragment reconciliation i∏P(Oi∣Yiˉ,X)SLAM P(X,A∣Y,ϕ)Local estimation k∏P(Yk∣Zˉk,ϕkˉ)
其中 Y k = { Ω k , T R Y k , L k } Y_{k}=\{\Omega_{k},T_{RY_{k}},L_{k}\} Yk={Ωk,TRYk,Lk}, Y Y Y表示在时刻 t t t机器人坐标系 R R R的一系列特性(此处省略了分解的过程,详细参考原论文)。
因此,这里仅用很少的假设就能获得一个结构良好的问题。更重要的是,这个公式提供了一个统一的框架——可以对整个过程进行解释。首先,所有以连续运动观察为特征的短期动态都被捕获在了局部部分中,其次,所有以突然变化观察为特征的长期动态都被捕获在了长期部分中。
4. 关键技术
Khronos系统可以分为三个部分:动态窗口、全局优化、一致性部分。
如下图所示,活动窗口估计局部表示和对象片段,然后执行全局优化估计机器人位姿X和片段关联关系,继而对每个片段状态进行一致性优化估计场景时空图。
图1|Khronos引入机器人里程计,以及语义和RGBD输入©️【深蓝AI】编译
4.1 动态窗口的局部估计
将局部估计组件称为活动窗口,其目标是通过观察Z,增量估计。首先需要重建静态背景,使用网格塑造表面,在机器人周围分配体素网格,并执行投影TSDF融合估计。从RGBD数据中获得观察信息Z。利用输入帧中提供的语义掩码作为Z,并使用几何运动检测将对象和背景分开。其次,需要跟踪结果。对每个活动窗口中的异步跟踪保证了局部一致性,并自然地处理部分错误的观察,同时,可以在所有数据都可用的情况下估计对象属性。
4.2 全局优化
活动窗口的局部估计经过优化和更新之后可以进行一致性优化,并在全局范围内,共同估计机器人姿态、片段位置和稠密地图。特别构建一个变分图进行全局优化,其节点对应机器人位姿X和网格控制节点P。
4.3 整体一致性
一致性的目标是随时估计场景的状态,执行额外的几何验证步骤。在表面表示中没有存储体积信息,但是该信息部分隐式地捕获在背景和机器人姿态中,研究团队提出一种算法来解决该问题。
5. 实验效果
表1提供了Khronos的定量实验结果以及在两个模拟数据集上的表现。
表1|4D背景重建,静态对象,动态对象和变化检测指标©️【深蓝AI】编译
Khronos可以与不同的前端交互,并且时空图的构建与输入语义或实例分割方法无关。表2将Khronos与地面实况语义分割作为输入与开放集分割方法进行比较,可以看到Khronos可以从噪声输入中提取有意义的对象。
表2|变化检测性能指标©️【深蓝AI】编译
图2展示了Khronos在办公室场景中的检测召回率。
图2|对不同时间场景状态下的时空状态,给出机器人截至当前时间的观察结果©️【深蓝AI】编译
通过在大学建筑整个楼层进行实验,通过在机器人观察之间删除和添加对象来协调场景的长期变化。短期动态表现为人类在机器人面前行走或移动物品,观察到Khronos可以很好地适应广泛的环境和动态的机器人平台,并且能够生成准确反映场景情况的时空地图,如图3所示。
图3|使用Boston Dynamic Spot构建的时空地图©️【深蓝AI】编译
6. 总结与未来展望
在这项研究工作中,作者定义了SMS问题,并提出了一种构建该问题的新方法,将短期动态的跟踪和长期变换检测统一在一个公式中。同时提出Khronos系统,这是第一个度量语义空间和时间感知的系统,能够解决SMS问题并生成密集的4D时空图。且该研究证明了Khronos在短期和长期动态相关的指标优于其他方法,并且可以与不同的语义对象交互,以有限的计算时间实时计算复杂的SMS问题。
但是Khronos系统将边界框质心定义为对象的位置,这导致对部分观察和遮挡比较敏感,同时由于缺乏对象的旋转估计降低了全局估计的有效性。所以未来可以继续解决该问题,扩展Khronos。
编译|xlh
审核|Los
移步公众号【深蓝AI】,第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。