读论文 LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action

最新推荐文章于 2025-05-07 09:58:42 发布

MhZhou0412

最新推荐文章于 2025-05-07 09:58:42 发布

阅读量733

点赞数 8

文章标签：人工智能

本文链接：https://blog.csdn.net/qq_54044964/article/details/141427015

版权

研究背景：机器人导航的目标条件策略可以在大型、未注释的数据集上进行训练，从而提供对现实世界设置的良好泛化。然而，特别是在基于视觉的设置中，指定目标需要图像，这会导致界面不自然。语言为与机器人的通信提供了更方便的方式，但当代方法通常需要昂贵的监督，以用语言描述注释的轨迹的形式。本文提出了一个用于机器人导航的系统 LM-Nav，该系统享有在未注释的大型轨迹数据集上进行训练的好处，同时仍然为用户提供高级界面。

源码：sites.google.com/view/lmnav

LLM负责解析自然语言指令，提取其中的关键地标，如“white building”、“white truck”等。它将复杂的语句转换为一系列机器人可以识别和使用的地标信息。 VLM将从LLM提取的地标描述与环境中的图像进行匹配，帮助系统确定这些地标在实际环境中的位置。VLM通过计算文本和图像的相似度来进行匹配。 VNM使用这些匹配的地标来规划路径，并控制机器人在环境中行驶。VNM的任务是根据图像中的地标，制定最优的行驶路线，并实际控制机器人执行该路线。

这篇文章做了什么？

LM-Nav实际示例。左侧是输入的自然语言指令，中间是VLM匹配出的地标，右侧是VNM执行路径规划后的实际行走路线。

(a) 指令包括多个地标（如“玻璃建筑”、“白车”）

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

MhZhou0412

关注关注

8
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

LM-Nav：通过语言、视觉和动作的大型预训练模型进行机器人导航

yorkhunter的博客

06-16

720

22年7月来自伯克利分校、华沙大学和谷歌的论文 “LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action“。

具身智能和人形机器人项目汇总

热门推荐

lovely_yoshino的博客

02-13

1万+

具身智能（Embodied Intelligence）是指通过物理体（如机器人或生物体）与环境进行互动而获得的智能。这种智能强调身体在认知过程中的重要性，认为智能不仅仅是大脑的功能，还包括身体的感知、运动和与环境的交互。具身智能的研究领域涉及机器人学、认知科学、神经科学等，重点在于如何通过身体的运动和感知来实现智能行为。而人形机器人与具身智能最近两年有效的结合到了一起，并以openloong为首，诞生了很多开源项目。从第一代到第四代的发展，第一代遥控设备，第二代机械臂（工业机器人），第三代移动智能机器人（扫

参与评论您还未登录，请先登录后发表或查看评论

【文献阅读】LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action

Toky_min的博客

03-30

550

机器人导航的目标条件策略可以在大规模、无注释的数据集上进行训练，从而能够很好地泛化到现实世界场景中。然而，特别是在基于视觉的场景中，指定目标需要图像，这就导致了一个不自然的交互界面。语言为与机器人通信提供了一种更方便的方式，但当代方法通常需要昂贵的监督，形式为带有语言描述注释的轨迹。我们提出了一个名为LM-Nav的机器人导航系统，它既享受在无注释的大规模轨迹数据集上训练的好处，同时又为用户提供了一个高级交互界面。我们没有使用带有标签的指令跟随数据集，而是展示了这样一个系统可以完全由

w1hsxn的博客

08-01

277

谷歌研究人员开发大型模型导航系统LM-Nav系统。

LM-Nav 使用指南

gitblog_00880的博客

09-03

418

LM-Nav 使用指南 lm_nav项目地址:https://gitcode.com/gh_mirrors/lm/lm_nav 一、项目目录结构及介绍开源项目 lm_nav 是为了实现论文《LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action》中的方法。以下是其主要的目录...

探索未来导航的边界：LM-Nav项目深度解析与应用推广

gitblog_01137的博客

09-03

382

探索未来导航的边界：LM-Nav项目深度解析与应用推广 lm_nav项目地址:https://gitcode.com/gh_mirrors/lm/lm_nav 项目介绍 LM-Nav，全称为“Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action”，是一个旨在推进机器人通过自然语言指令进行...

w1hsxn的博客

07-26

320

给定一个目的地，在没有导航轨迹的情况下顺利到达，有多难？

VLN阶段性小结2023.1.10

weixin_45347379的博客

01-10

2688

视觉语言导航VLN任务阶段性总结2023.1.10

大语言模型LLMs驱动机器人李飞飞 VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models

weixin_41407147的博客

07-12

4538

在这项工作中，我们的目标是合成机器人轨迹，即一个密集的6自由度末端执行器航点序列，用于处理给定开放集合的指令和开放集合的对象的各种操作任务。我们首先观察到LLMs擅长根据自由形式的语言指令推断出可供性和约束。更重要的是，通过利用他们的代码编写能力，他们可以与视觉语言模型（VLM）交互，组合3D价值地图 *3D Value Map*，将知识固定在代理的观察空间中。然后，将组合的价值地图用于基于模型的规划框架中，以zero-shot方式合成对动态干扰具有鲁棒性的闭环机器人轨迹。

视觉大语言模型最新综述！全面盘点SOTA模型~

CV_Autobot的博客

01-24

1873

点击下方卡片，关注“具身智能之心”公众号作者| Zongxia Li等编辑|具身智能之心本文只做学术分享，如有侵权，联系删文>>点击进入→具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球(戳我)，这里包含所有你想要的。写在前面多模态视觉语言模型（VLMs）已成为计算机视觉与自然语言处理交叉领域的一项变革性技术，使机器能够通过视觉和文本...

【论文阅读】Vison-Language Navigation 视觉语言导航（1）

三木今天学习了嘛の博客

02-27

3086

我们研究了一个简单的框架，车轮上的CLIP（CoW，CLIP on Wheels），以在不进行微调的情况下使开放词汇模型适应这项任务。为了更好地评估L-ZSON，我们引入了PASTURE基准，该基准考虑了查找不常见的对象、由空间和外观属性描述的对象以及相对于可见对象描述的隐藏对象。我们将CoW视为一个使用开放词汇表模型（open vocabulary model）和基于文本的界面在更灵活的环境中处理机器人任务的例子。

Visual Navigation(一):阅读三篇经典论文

qq_43398345的博客

02-13

901

研究生不读论文还是不行的呀，在这里结合下别人的总结等下一次组会吹水。

【NLP】下一站，Embodied AI

fengdu78的博客

07-23

1261

不知大家有没有注意到（也可能是我敏感了），最近一些大机构不约而同地开始挖新坑了，两个风向标DeepMind和OpenAI，先后发布了Gato和VPT，期望除了图像和文本之外，预训练模型也能够与环境交互。这个方向，叫Embodied AI（具象AI）。与具象AI对立的词是Internet AI[1]，指通过互联网上的数据进行学习，比如我们一直在做的CV、NLP。而Embod...

Prevalent：视觉语言导航预训练模型

weixin_51697828的博客

12-21

331

在视觉环境中按照自然语言指令进行导航是一项挑战，因为智能体的多模态输入是高度可变的，并且新任务的训练数据通常是有限的。作者针对视觉语言导航(Vision-and-LanguageNavigation，VLN)任务，提出了遵循预训练和微调范式的VLN模型Prevalent。作者在大量图像-文本-动作三元组数据集上对模型进行了自监督预训练，使其能够提供视觉环境和语言指令的通用表示。Prevalent在新任务上的学习效率更高，在陌生环境中的泛化性能更好。作者在R2R(Room-to-Room)、CVDN(Coo.

自然语言处理实战：用CRF打造高精度命名实体识别系统

Loving_enjoy的博客

05-03

1379

无论是想快速搭建一个可用的NER系统，还是希望深入理解概率图模型的精髓，CRF都是值得放入工具箱的利器。'prev_is_b-geo': prev_tag == 'B-GEO' # 假设prev_tag是前一个标签。('参观天安门', ['O', 'B-POI', 'I-POI', 'I-POI'])" —— 人工智能先驱吴恩达。- **BiLSTM-CRF**：经典组合，在CoNLL-2003达到91%的F1值。('北京市', ['B-GEO', 'I-GEO', 'I-GEO']),

解锁DeepSeek模型微调：从小白到高手的进阶之路

邓邓子的博客

05-05

1522

本文围绕 DeepSeek 模型微调展开系统阐述。首先介绍 DeepSeek 模型在 AI 领域的重要地位及其优势，点明微调对提升模型性能的关键意义。接着深入解析微调原理，涵盖迁移学习基础与参数更新机制。随后详细讲解数据准备、模型选择加载、微调训练实战等核心步骤，包括数据收集标注预处理、参数设置与策略选择。还通过实战案例展示微调全流程，并基于评估结果提出优化改进方法。最后对 DeepSeek 模型微调进行总结，展望其未来发展方向，为希望掌握 DeepSeek 模型微调技术的读者提供全面指导。

『MaxKB业务实战（四）』在MaxKB中实现图片问答