原文链接:即将开源!基于动态不变性感知的多模态视觉位置识别
论文题目:Multi-modal Visual Place Recognition in Dynamics-Invariant Perception Space
**来自:**东南大学自动化学院
**作者:**Lin Wu, Teng Wang and Changyin Sun
链接: https://doi.org/10.1109/LSP.2021.3123907
代码地址(即将开源):https://github.com/fiftywu/Multimodal-VPR
论文摘要
视觉位置识别是机器人领域中必不可少且具有挑战性的问题之一。在这篇快报中,我们首次探索了在动态不变空间中使用语义和视觉的多模态融合来改善动态环境中的位置识别。首先,我们设计了一种新颖的深度学习架构来生成静态语义分割,并直接从相应的动态图像中恢复静态图像。然后,我们利用空间金字塔匹配模型(SPM)将静态语义分割编码为特征向量,而对于静态图像,则使用流行的词袋模型(BoW)进行编码。在上述多模态特征的基础上,我们通过语义和视觉编码的联合相似度来衡量查询图像与目标地标之间的相似度。大量实验证明了所提出的方法在动态环境中的位置识别的有效性和鲁棒性。
视觉位置识别
视觉位置识别(VPR)作为 SLAM 系统的关键组成部分,是一项可以帮助机器人确定其是否位于先前访问过的地方的任务。当前的工作通常将其视为将当前观察与一组参考地标相匹配的图像检索任务,并设计各种特征描述符来测量地标相似性。这些方法通常假定系统在静态环境中运行, 然而,现实世界是复杂而动态的。动态物体的存在使得不同时刻的场景外观不一致,从而增加了特征匹配的误差。
动态不变性感知
动态不变性感知是指在动态场景下,将其中动态的内容(如行人、车辆)消除并转换成与之相对应的静态内容。典型的工作有《Empty Cities: a Dy