链接
1 Abstract and Introduction
视觉语言导航可以使用预先训练的现有的视觉语言模型来将图像与对象目标的自然语言描述相匹配,但它与绘制环境的过程仍然脱节,缺乏经典几何地图的空间精度。为了解决这个问题,我们提出了VLMaps,这是一种空间地图表示,它将预训练的视觉语言特征与物理世界的3D重建直接融合在一起。VLMaps可以使用标准探索方法从机器人上的视频馈送中自主构建,并在没有额外标记数据的情况下实现地图的自然语言索引。具体来说,当与大型语言模型(LLM)相结合时,VLMaps可以用于(i)将自然语言命令翻译成一系列直接定位在地图中的开放词汇导航目标(除了先前的工作之外,这些目标可以是空间的,例如“在沙发和电视之间”或“椅子右侧三米处”),以及(ii)可以在具有不同实施例的多个机器人之间共享,以在飞行中生成新的障碍物地图(通过使用障碍物类别的列表)。在模拟和真实世界环境中进行的大量实验表明,