Talk｜北京大学张嘉曌：NaVid - 视觉语言导航大模型

最新推荐文章于 2025-04-29 11:09:30 发布

TechBeat人工智能社区

最新推荐文章于 2025-04-29 11:09:30 发布

阅读量1.8k

点赞数 27

分类专栏：每周Talk上架文章标签：机器人自然语言处理计算机视觉具身智能视觉语言大模型

本文链接：https://blog.csdn.net/hanseywho/article/details/139845148

版权

本期为TechBeat人工智能社区第602期线上Talk。

北京时间6月20日(周四)20:00，北京大学博士生—张嘉曌的Talk已经准时在TechBeat人工智能社区开播！

他与大家分享的主题是: “NaVid - 视觉语言导航大模型”，NaVid是首个专为视觉语言导航（VLN）任务设计的基于视频的具身大模型。NaVid使用导航过程中的视频观测和自然语言指令作为输入，直接输出机器人的导航动作。与大部分已有的机器人导航技术不同，NaVid不依赖于深度信息、里程计和地图，完全依靠RGB视觉感知实现端到端的导航控制。它仅利用模拟器的数据进行导航策略学习，就能在真实世界的场景中实现泛化的导航表现。该工作已入选RSS'24。