研究背景:机器人导航的目标条件策略可以在大型、未注释的数据集上进行训练,从而提供对现实世界设置的良好泛化。然而,特别是在基于视觉的设置中,指定目标需要图像,这会导致界面不自然。语言为与机器人的通信提供了更方便的方式,但当代方法通常需要昂贵的监督,以用语言描述注释的轨迹的形式。本文提出了一个用于机器人导航的系统 LM-Nav,该系统享有在未注释的大型轨迹数据集上进行训练的好处,同时仍然为用户提供高级界面。
源码:sites.google.com/view/lmnav
LLM负责解析自然语言指令,提取其中的关键地标,如“white building”、“white truck”等。它将复杂的语句转换为一系列机器人可以识别和使用的地标信息。 VLM将从LLM提取的地标描述与环境中的图像进行匹配,帮助系统确定这些地标在实际环境中的位置。VLM通过计算文本和图像的相似度来进行匹配。 VNM使用这些匹配的地标来规划路径,并控制机器人在环境中行驶。VNM的任务是根据图像中的地标,制定最优的行驶路线,并实际控制机器人执行该路线。
这篇文章做了什么?
LM-Nav实际示例。左侧是输入的自然语言指令,中间是VLM匹配出的地标,右侧是VNM执行路径规划后的实际行走路线。
(a) 指令包括多个地标(如“玻璃建筑”、“白车”)