本期为TechBeat人工智能社区第602期线上Talk。
北京时间6月20日(周四)20:00,北京大学博士生—张嘉曌的Talk已经准时在TechBeat人工智能社区开播!
他与大家分享的主题是: “NaVid - 视觉语言导航大模型”,NaVid是首个专为视觉语言导航(VLN)任务设计的基于视频的具身大模型。NaVid使用导航过程中的视频观测和自然语言指令作为输入,直接输出机器人的导航动作。与大部分已有的机器人导航技术不同,NaVid不依赖于深度信息、里程计和地图,完全依靠RGB视觉感知实现端到端的导航控制。它仅利用模拟器的数据进行导航策略学习,就能在真实世界的场景中实现泛化的导航表现。该工作已入选RSS'24。
Talk·信息
▼
嘉宾:北京大学博士生 张嘉曌
时间:北京时间 6月20日(周四)20:00