研究背景:机器人导航的目标条件策略可以在大型、未注释的数据集上进行训练,从而提供对现实世界设置的良好泛化。然而,特别是在基于视觉的设置中,指定目标需要图像,这会导致界面不自然。语言为与机器人的通信提供了更方便的方式,但当代方法通常需要昂贵的监督,以用语言描述注释的轨迹的形式。本文提出了一个用于机器人导航的系统 LM-Nav,该系统享有在未注释的大型轨迹数据集上进行训练的好处,同时仍然为用户提供高级界面。
源码:sites.google.com/view/lmnav
LLM负责解析自然语言指令,提取其中的关键地标,如“white building”、“white truck”等。它将复杂的语句转换为一系列机器人可以识别和使用的地标信息。 VLM将从LLM提取的地标描述与环境中的图像进行匹配,帮助系统确定这些地标在实际环境中的位置。VLM通过计算文本和图像的相似度来进行匹配。 VNM使用这些匹配的地标来规划路径,并控制机器人在环境中行驶。VNM的任务是根据图像中的地标,制定最优的行驶路线,并实际控制机器人执行该路线。
这篇文章做了什么?
LM-Nav实际示例。左侧是输入的自然语言指令,中间是VLM匹配出的地标,右侧是VNM执行路径规划后的实际行走路线。
(a) 指令包括多个地标(如“玻璃建筑”、“白车”),系统成功执行到达目标。 (b) 指令中的多个复杂地标(如“蓝色半挂卡车”)被正确识别,路径规划精准。 (c) 系统面对复杂的指令(包括多重转向和地标),仍能成功到达目标。
二、实现过程(怎么做的?)
构建拓扑图(VNM):收集环境图像,使用VNM模型建立一个基于距离的拓扑图。
提取地标(LLM):将自然语言指令解析为地标序列。
地标定位(VLM):将地标映射到拓扑图中的节点。
图搜索:通过图搜索算法找到经过所有地标的最优路径。
计划执行(VNM):机器人根据规划的路径移动,通过实际操作完成导航任务。
细节:CLIP和VNM模型如何协作实现导航任务
CLIP模型用于在图像观测与文本地标之间建立联合概率分布,VNM模型则推断机器人与目标之间的距离函数,并制定控制策略。
CLIP:将文本指令(如“这是一个停车标志的照片”)和图像编码后计算相似度,以确定最有可能的匹配。
VNM:使用目标条件距离函数来计算从当前位置到目标位置的时间和动作,从而控制机器人完成导航任务。
附原文翻译重点内容
我的关注点主要是我学习方向有用的 具体的请查阅原论文 感谢您的阅读