2023 ICRA《Visual Language Maps for Robot Navigation》阅读笔记

22 篇文章 35 订阅 ¥19.90 ¥99.00

 链接

1 Abstract and Introduction

视觉语言导航可以使用预先训练的现有的视觉语言模型来将图像与对象目标的自然语言描述相匹配,但它与绘制环境的过程仍然脱节,缺乏经典几何地图的空间精度。为了解决这个问题,我们提出了VLMaps,这是一种空间地图表示,它将预训练的视觉语言特征与物理世界的3D重建直接融合在一起。VLMaps可以使用标准探索方法从机器人上的视频馈送中自主构建,并在没有额外标记数据的情况下实现地图的自然语言索引。具体来说,当与大型语言模型(LLM)相结合时,VLMaps可以用于(i)将自然语言命令翻译成一系列直接定位在地图中的开放词汇导航目标(除了先前的工作之外,这些目标可以是空间的,例如“在沙发和电视之间”或“椅子右侧三米处”),以及(ii)可以在具有不同实施例的多个机器人之间共享,以在飞行中生成新的障碍物地图(通过使用障碍物类别的列表)。在模拟和真实世界环境中进行的大量实验表明,VLMaps能够根据比现有方法更复杂的语言指令进行导航。

同时,最近的工作表明,在互联网规模的数据(例如,图像字幕)上预训练的视觉语言模型(VLM)[10]、[11]可以开箱即用,将语言应用于导航代理的视觉观察&#x

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

初篱

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值