读论文 LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action

研究背景:机器人导航的目标条件策略可以在大型、未注释的数据集上进行训练,从而提供对现实世界设置的良好泛化。然而,特别是在基于视觉的设置中,指定目标需要图像,这会导致界面不自然。语言为与机器人的通信提供了更方便的方式,但当代方法通常需要昂贵的监督,以用语言描述注释的轨迹的形式。本文提出了一个用于机器人导航的系统 LM-Nav,该系统享有在未注释的大型轨迹数据集上进行训练的好处,同时仍然为用户提供高级界面。

 源码:sites.google.com/view/lmnav

LLM负责解析自然语言指令,提取其中的关键地标,如“white building”、“white truck”等。它将复杂的语句转换为一系列机器人可以识别和使用的地标信息。 VLM将从LLM提取的地标描述与环境中的图像进行匹配,帮助系统确定这些地标在实际环境中的位置。VLM通过计算文本和图像的相似度来进行匹配。 VNM使用这些匹配的地标来规划路径,并控制机器人在环境中行驶。VNM的任务是根据图像中的地标,制定最优的行驶路线,并实际控制机器人执行该路线。

这篇文章做了什么?

LM-Nav实际示例。左侧是输入的自然语言指令,中间是VLM匹配出的地标,右侧是VNM执行路径规划后的实际行走路线。

(a) 指令包括多个地标(如“玻璃建筑”、“白车”),系统成功执行到达目标。 (b) 指令中的多个复杂地标(如“蓝色半挂卡车”)被正确识别,路径规划精准。 (c) 系统面对复杂的指令(包括多重转向和地标),仍能成功到达目标。

二、实现过程(怎么做的?)

构建拓扑图(VNM):收集环境图像,使用VNM模型建立一个基于距离的拓扑图。

提取地标(LLM):将自然语言指令解析为地标序列。

地标定位(VLM):将地标映射到拓扑图中的节点。

图搜索:通过图搜索算法找到经过所有地标的最优路径。

计划执行(VNM):机器人根据规划的路径移动,通过实际操作完成导航任务。

细节:CLIP和VNM模型如何协作实现导航任务

CLIP模型用于在图像观测与文本地标之间建立联合概率分布,VNM模型则推断机器人与目标之间的距离函数,并制定控制策略。

CLIP:将文本指令(如“这是一个停车标志的照片”)和图像编码后计算相似度,以确定最有可能的匹配。

VNM:使用目标条件距离函数来计算从当前位置到目标位置的时间和动作,从而控制机器人完成导航任务。

附原文翻译重点内容

我的关注点主要是我学习方向有用的 具体的请查阅原论文 感谢您的阅读

  • 6
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值