视觉位置识别与多模态导航规划

最新推荐文章于 2025-03-08 18:13:14 发布

Only_one_road

最新推荐文章于 2025-03-08 18:13:14 发布

阅读量1.7k

点赞数 25

文章标签：人工智能机器人计算机视觉图像处理深度学习 chatgpt YOLO

本文链接：https://blog.csdn.net/gwl13940225979/article/details/137932183

版权

文章探讨了视觉位置识别(VPR)在机器人导航中的重要性，特别是AnyLoc和SelaVPR两种方法，前者追求通用性和鲁棒性，后者通过轻量级适配器改善预训练模型的适应性。同时，提到了PixelNav的RGB导航技能，它以像素为目标，强化了导航的精度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

机器人感知决策是机器人移动的前提，机器人需要对周围环境实现理解，而周围环境通常由静态环境与动态环境构成。机器人在初始状态或者重启时需要确定当前所处的位置，然后根据用户的指令或意图，开展相应移动或抓取操作。通过视觉感知确定机器人所处位置，同时如何根据感知结果确定移动方向是重要的研究方向。视觉位置识别（VPR）主要是从标记的图像数据库中搜索最佳匹配，来粗略估计查询地点图像的位置，可以归结为数据库构建与查询的过程。主要的问题是环境中有部分是动态环境，因此很多算法均是在固定场景进行实验，缺乏泛化性，如何根据环境实现机器人导航也面临着挑战。

方法

视觉位置识别

1、AnyLoc: Towards Universal Visual Place Recognition

AnyLoc旨在位置识别算法的通用性，包括任何地点（无缝地运行在任何环境中，包括空中、地下和水下），任何时间（对场景中的时间变化，如昼夜或季节变化，或对临时物体具有鲁棒性），以及跨任何视角（对视角变化具有鲁棒性，包括完全相反的视角。主要通过聚合从大规模预训练模型（基础模型）提取的每像素特征来实现这一目标，而无需进行任何训练或微调。

主要采用自监督特征（如DINOv2）和无监督聚合方法（如VLAD和GeM），用来提取每个像素特征，相较于直接使用现成模型的每个图像特征，可以获得显著的性能提升。通过评估局部特征对应的鲁棒性来说明这种密集ViT特征在VPR中的适用性。选择数据库图像上的一个点，将其与查询图像