即将开源基于动态不变性感知的多模态视觉位置识别

最新推荐文章于 2024-07-29 09:03:57 发布

计算机视觉life

最新推荐文章于 2024-07-29 09:03:57 发布

阅读量2.2k

点赞数

分类专栏： OpenCV SLAM 视觉SLAM 文章标签：深度学习机器学习 slam 计算机视觉

本文链接：https://blog.csdn.net/electech6/article/details/121648833

版权

本文提出了一种基于动态不变性感知的多模态视觉位置识别方法，利用语义和视觉信息融合，提升机器人在动态环境中的定位准确性。通过静态语义分割和深度学习架构，从动态图像中恢复静态图像，再结合空间金字塔匹配和词袋模型进行特征编码，实现更精确的图像匹配。实验表明，这种方法在动态环境中的位置识别效果显著优于传统方法。

摘要由CSDN通过智能技术生成

原文链接：即将开源！基于动态不变性感知的多模态视觉位置识别
论文题目：Multi-modal Visual Place Recognition in Dynamics-Invariant Perception Space

**来自：**东南大学自动化学院

**作者：**Lin Wu, Teng Wang and Changyin Sun

链接： https://doi.org/10.1109/LSP.2021.3123907

代码地址（即将开源）：https://github.com/fiftywu/Multimodal-VPR

论文摘要

视觉位置识别是机器人领域中必不可少且具有挑战性的问题之一。在这篇快报中，我们首次探索了在动态不变空间中使用语义和视觉的多模态融合来改善动态环境中的位置识别。首先，我们设计了一种新颖的深度学习架构来生成静态语义分割，并直接从相应的动态图像中恢复静态图像。然后，我们利用空间金字塔匹配模型（SPM）将静态语义分割编码为特征向量，而对于静态图像，则使用流行的词袋模型（BoW）进行编码。在上述多模态特征的基础上，我们通过语义和视觉编码的联合相似度来衡量查询图像与目标地标之间的相似度。大量实验证明了所提出的方法在动态环境中的位置识别的有效性和鲁棒性。

视觉位置识别

视觉位置识别（VPR）作为 SLAM 系统的关键组成部分，是一项可以帮助机器人确定其是否位于先前访问过的地方的任务。当前的工作通常将其视为将当前观察与一组参考地标相匹配的图像检索任务，并设计各种特征描述符来测量地标相似性。这些方法通常假定系统在静态环境中运行，然而，现实世界是复杂而动态的。动态物体的存在使得不同时刻的场景外观不一致，从而增加了特征匹配的误差。

动态不变性感知

动态不变性感知是指在动态场景下，将其中动态的内容（如行人、车辆）消除并转换成与之相对应的静态内容。典型的工作有《Empty Cities: a Dy