读论文 LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action

研究背景:机器人导航的目标条件策略可以在大型、未注释的数据集上进行训练,从而提供对现实世界设置的良好泛化。然而,特别是在基于视觉的设置中,指定目标需要图像,这会导致界面不自然。语言为与机器人的通信提供了更方便的方式,但当代方法通常需要昂贵的监督,以用语言描述注释的轨迹的形式。本文提出了一个用于机器人导航的系统 LM-Nav,该系统享有在未注释的大型轨迹数据集上进行训练的好处,同时仍然为用户提供高级界面。

 源码:sites.google.com/view/lmnav

LLM负责解析自然语言指令,提取其中的关键地标,如“white building”、“white truck”等。它将复杂的语句转换为一系列机器人可以识别和使用的地标信息。 VLM将从LLM提取的地标描述与环境中的图像进行匹配,帮助系统确定这些地标在实际环境中的位置。VLM通过计算文本和图像的相似度来进行匹配。 VNM使用这些匹配的地标来规划路径,并控制机器人在环境中行驶。VNM的任务是根据图像中的地标,制定最优的行驶路线,并实际控制机器人执行该路线。

这篇文章做了什么?

LM-Nav实际示例。左侧是输入的自然语言指令,中间是VLM匹配出的地标,右侧是VNM执行路径规划后的实际行走路线。

(a) 指令包括多个地标(如“玻璃建筑”、“白车”)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值