视觉语言导航-CSDN博客

原创具身导航从模仿到超越！CompassNav：从路径模仿到决策理解的导航

提出新的导航范式，从传统的路径模仿转变为决策理解，旨在培养能够真正理解导航决策的智能体，而不仅仅是模仿专家路径。

2025-11-01 20:32:51 1227

原创中农智慧农业具身导航最新进展！SUM-AgriVLN：农业视觉语言导航中的空间理解记忆

将SUM模块集成到农业视觉语言导航（AgriVLN）基础模型中，构建了SUM-AgriVLN方法，能够利用空间记忆辅助农业机器人根据自然语言指令导航到目标位置。

2025-11-01 20:31:27 1036

原创具身导航轨迹规划与主动想象融合！DreamNav：基于轨迹想象的零样本视觉语言导航框架

提出 DreamNav 框架，首次将轨迹级规划和主动想象能力统一到零样本视觉语言导航（VLN）系统中，仅使用以自我为中心的输入，实现了在连续环境中的高效导航。

2025-11-01 20:29:59 878

原创具身导航视角适应性增强！VIL：连续环境视觉语言导航的视角不变学习

引入新的评估场景V2-VLNCE，在该场景中，通过改变相机高度和视角角度来模拟真实世界中不同的相机视角，从而能够更真实、系统地分析视角鲁棒性。

2025-11-01 20:28:22 1298

原创华盛顿大学统一世界模型重塑智能规划与想象！UniWM：视觉导航中的记忆增强规划与预见

提出统一的记忆增强型世界模型UniWM，首次将视觉导航规划和想象整合到一个单一的多模态自回归骨干网络中，有效解决了模块化架构中存在的表示碎片化问题。

2025-11-01 20:25:31 1033

原创中科大自适应推理具身导航框架！AdaNav：基于不确定性驱动自适应推理的视觉语言导航

提出基于不确定性的自适应推理框架了AdaNav，通过引入不确定性自适应推理块（UAR Block）和启发式到强化学习（Heuristic-to-RL）的训练机制，使智能体能够在导航过程中根据需要动态地触发推理，解决了固定步长推理导致的性能次优和计算开销问题。

2025-11-01 20:23:41 1163

原创 RAPID：基于逆强化学习的无人机视觉导航鲁棒且敏捷规划器

提出了基于逆强化学习的学习型视觉规划器RAPID，用于复杂环境中的敏捷无人机飞行，能够在毫秒级生成无碰撞的航点，无需单独的感知、建图和规划模块，可直接应用于现实场景，无需额外训练或调整。

2025-10-31 22:49:28 812

原创理解世界还是预测未来？清华大学世界模型全面综述

提出新的世界模型分类系统：将世界模型分为两类，一类是构建外部世界的隐含表示以理解世界运行机制，另一类是预测外部世界的未来状态以支持决策制定。

2025-10-31 22:48:26 1577

原创北大通用具身导航模型探索！NavFoM：跨实体和跨任务的具身导航基础模型

提出了NavFoM模型：跨实体和跨任务的导航基础模型，能够在多种不同的机器人形态（如四足机器人、无人机、轮式机器人和车辆）以及多种任务（如视觉语言导航、目标搜索、目标跟踪和自动驾驶）中实现导航，且无需针对特定任务进行微调，展现出强大的泛化能力。

2025-10-31 22:47:09 1069

原创 RAL-2025 | 北理工具身导航如何融入家居环境！OpenIN：动态家居环境中的开放词汇实例导向导航

提出了开放词汇、实例导向的导航系统OpenIN，支持多模态（文本和图像）和多类型（需求、语义和实例级）对象导航指令，能够有效导航到位置可变的日常实例。

2025-10-31 22:45:13 1002

原创 CVPR-2025 | 端到端导航智能体的推理能力探究：动态系统学习、规划能力与记忆使用

通过大规模实验研究，展示了智能体在快速移动的真实机器人导航任务中，通过端到端训练所学到的动态系统模型、感知与规划能力，以及这些能力如何相互作用以实现有效的导航。

2025-10-31 22:43:45 1199

原创北大&上海AiLab具身导航最新基准测试！NavSpace：导航智能体如何遵循空间智能指令

提出首个空间智能导航基准NavSpace：基于问卷调查，NavSpace包含1228个高质量的轨迹-指令对，覆盖垂直感知、精确移动、视角转换、空间关系、环境状态和空间结构等六种空间智能能力，为评估导航智能体的空间智能提供了全面的基准。

2025-10-31 22:41:44 1149

原创 CoRL-2025 | VLM赋能高阶推理导航！ReasonNav：在人类世界中实现与人类一致的导航

论文提出了ReasonNav，通过整合视觉语言模型的推理能力来实现类似人类导航技能（如读标识、问路）的模块化导航系统，实验表明其在大型复杂环境中能显著提高导航效率，展现出高效的类似人类的导航能力。

2025-10-17 21:36:18 936

原创上海AiLab扩散策略赋能具身导航！NavDP：基于特权信息的仿真到现实导航扩散策略

论文提出了导航扩散策略NavDP，仅通过仿真数据训练，借助扩散模型生成轨迹和批评函数筛选安全轨迹，实现了机器人在不同实体和多样化真实世界环境中的零样本迁移导航，显著提升了导航策略的泛化能力和安全性！

2025-10-17 21:33:36 1348

原创高德&西交语义与空间解耦具身导航！JanusVLN：基于双隐式记忆的视觉语言导航框架

论文提出视觉语言导航框架JanusVLN，通过构建双隐式神经记忆来克服传统方法在记忆膨胀、计算冗余和空间感知缺失方面的瓶颈，在VLN-CE基准测试中取得了SOTA结果！

2025-10-15 21:01:45 1579

原创 CoRL-2025 | SocialNav-SUB：用于社交机器人导航场景理解的视觉语言模型基准测试

论文介绍了基准测试框架SocialNav-SUB，用于评估视觉语言模型在社交机器人导航场景中场景理解能力的。揭示了当前 VLMs 在空间推理、时空推理和社交推理方面的表现与人类和基于规则的方法之间存在显著差距！

2025-10-15 20:58:35 779

原创 CoRL-2025 | SocialNav-SUB：用于社交机器人导航场景理解的视觉语言模型基准测试

论文介绍了基准测试框架SocialNav-SUB，用于评估视觉语言模型在社交机器人导航场景中场景理解能力的。揭示了当前 VLMs 在空间推理、时空推理和社交推理方面的表现与人类和基于规则的方法之间存在显著差距！

2025-10-14 21:35:20 1145

原创阿德莱德学习推理与导航！PEAP-LLM：基于大语言模型的参数高效动作规划

提出了参数高效的动作规划器PEAP-LLM，使智能体能够在每个位置与LLM交互以获得单步指令，从而提高导航效率！

2025-10-14 21:34:15 1228

原创 CoRL-2025 | 物体相对控制赋能具身导航！ObjectReact：学习用于视觉导航的物体相对控制

论文提出物体相对控制学习方法ObjectReact，用于视觉导航任务，通过基于相对3D场景图的地图表示和物体级别的路径规划，实现了在不同导航任务和跨实体部署中的高不变性和更好的泛化能力！

2025-10-11 22:17:04 1139

原创具身导航分层思考、动态行动！MFRA：面向视觉语言导航的层次化多模态融合与推理

论文提出了多级融合和推理架构（MFRA），用于视觉语言导航任务，通过层次化融合多模态特征和动态推理模块，有效整合视觉观察、语言指令和导航历史，显著提升了智能体在复杂导航场景中的决策准确性！

2025-10-11 22:15:56 851

原创《Pattern Recognition》“开放城市环境下的无人系统空间具身智能”专刊征文通知

《Pattern Recognition》“开放城市环境下的无人系统空间具身智能”专刊征文通知

2025-10-10 21:05:34 1006

原创 ICRA-2025 | 机器人具身探索导航新策略！CTSAC：基于课程学习Transformer SAC算法的目标导向机器人探索

论文提出了基于课程学习的 Transformer 强化学习算法CTSAC，通过集成 Transformer 到SAC框架中，利用历史信息增强机器人的环境推理能力，并采用定期复习的课程学习策略提高训练效率和泛化性能！

2025-10-10 21:03:04 1578

原创 ICRA-2025 | 阿德莱德机器人拓扑导航探索！TANGO：具有局部度量控制的拓扑目标可穿越性感知具身导航

论文提出基于物体的拓扑-度量导航方法TANGO，通过将全局拓扑路径规划与局部度量轨迹规划相结合，实现了无需3D地图或预训练控制器的零样本机器人导航，显著优于现有方法，并在模拟和现实环境中展示了其鲁棒性和可部署性！

2025-10-10 21:01:33 1407

原创解锁机器人导航的全模态潜能！OmniVLA：机器人导航的全模态视觉-语言-动作模型

论文提出了OmniVLA模型，通过融合多种模态（2D姿态、自身中心图像和自然语言）的目标条件进行训练，实现了强大的泛化能力和鲁棒性，为机器人视觉导航提供了一个灵活且可扩展的基础模型！

2025-09-28 21:35:52 1392

原创清华世界模型与具身智能融合全面综述！具身智能：从LLMs到世界模型

论文探讨了具身AI从LLMs到WMs的发展，分析了二者在具身AI中的作用，提出了联合MLLMs与WMs的架构，强调其对复杂任务的重要性，总结了具身AI的应用，并展望了未来研究方向，推动具身AI向通用物理智能发展！

2025-09-28 21:33:07 1263

原创 CVPR-2025 | 具身导航指令高效生成！MAPInstructor：基于场景图的导航指令生成Prompt调整策略

MAPINSTRUCTOR 通过将拓扑地图连接作为提示特征整合到 LLM 中，有效地解决了 NIG 中的空间场景理解问题，在复杂室内环境中取得了令人满意的性能！

2025-09-27 15:34:35 1550

原创地平线机器人具身导航快慢推理新探索！FSR-VLN：基于分层多模态场景图快慢推理的视觉语言导航

论文提出视觉语言导航系统FSR-VLN，通过结合分层多模态场景图（HMSG）和快慢速推理（FSR）机制，在真实世界的长距离导航任务中实现了高成功率和低响应时间，显著优于现有方法，并展示了其在人形机器人上的应用潜力！

2025-09-27 15:31:01 1222

原创 RAL-2025 | EffoNAV：清华大学基于基础模型的复杂环境高效视觉导航方法

论文提出了基于预训练基础模型的视觉导航方法EffoNAV，通过引入交叉注意力和Token注意力机制，显著提升了机器人在复杂环境下的导航性能！

2025-09-25 16:21:34 1156

原创语义分割赋能未知环境具身导航！SEMNAV：语义分割驱动的视觉语义导航

论文提出了视觉语义导航新方法SEMNAV，通过利用语义分割作为主要视觉输入，有效提升了机器人在模拟环境和现实世界中的导航性能，显著缩小了模拟到现实的领域差距，并发布了相应的数据集以支持进一步研究！

2025-09-25 16:18:17 975

原创 ICCV-2025 | 对话协作驱动具身导航！DialNav：远程向导指导下的多轮对话导航

论文介绍了具身对话导航任务 DialNav，该任务通过模拟现实世界中导航智能体与远程向导之间的多轮对话来完成导航目标，并为此收集发布了 RAIN 数据集，同时设计了综合评估基准并进行了实验分析，揭示了任务的关键挑战，旨在推动具身对话导航领域的发展！

2025-09-22 21:38:47 1426

原创 ICCV-2025 | 斯坦福人形机器人自主导航！LookOut：真实环境人形机器人第一人称视角导航

论文提出了LookOut模型，用于从第一人称视角视频预测未来6D头部姿态轨迹，以实现人形机器人在真实世界中的无碰撞导航，并贡献了相应的数据收集流程和数据集，通过实验验证了模型的有效性和泛化能力！

2025-09-22 21:34:28 1406

原创 ICCV-2025 | 大模型驱动的认知导航框架！CogNav：面向目标导航的大型语言模型驱动的认知过程建模

论文提出CogNav框架，通过模仿人类的认知过程并利用大型语言模型（LLMs）的推理能力，显著提升了具身智能体在未知环境中进行目标导航（ObjectNav）任务的成功率和效率！

2025-09-20 21:01:28 1632

原创 RSS-2025 | 无地图具身导航新范式！CREStE：基于互联网规模先验与反事实引导的可扩展无地图导航

论文介绍了可扩展无地图导航框架CRESTE，通过结合视觉基础模型和反事实引导的学习方法，实现了在开放世界中对城市环境的鲁棒导航，显著提升了泛化能力和导航性能！

2025-09-19 19:20:11 898

原创康奈尔大学视觉-语言-动作模型全面综述：概念、进展、应用与挑战

VLA模型通过整合视觉、语言和动作，显著提升了机器人的感知、理解和执行能力。尽管在实时性、多模态动作表示、数据集偏差和系统集成等方面仍面临挑战，但通过数据高效学习、参数高效方法和加速技术，VLA模型的可扩展性和实时性得到了显著提升。

2025-09-19 19:17:57 1275

原创更符合人类偏好的具身导航！HALO：面向机器人导航的人类偏好对齐离线奖励学习

论文介绍了新型离线奖励学习算法HALO，通过人类偏好对机器人导航进行奖励建模，无需手工设计奖励函数，展现出优越的性能和良好的泛化能力。

2025-09-18 00:07:01 915

原创中农农业机器人具身导航最新突破！T-araVLN：农业机器人视觉语言导航的指令翻译器

论文提出T-araVLN方法，通过引入指令翻译模块将原始指令转化为精炼精确的形式，显著提高了农业机器人在视觉语言导航任务中的成功率和导航精度，展示了其在农业领域的先进性能！

2025-09-18 00:04:11 1434

原创具身导航技能分解与重组！SkillNav：基于技能的视觉语言导航智能体混合架构

论文提出了SkillNav，基于技能分解和零样本视觉-语言模型路由的模块化视觉语言导航框架，通过将导航任务分解为可复用的原子技能并动态选择最适合的技能智能体，显著提升了VLN智能体在新环境和多样化指令风格下的泛化能力！

2025-09-16 23:42:30 1125

原创清华大学“随心所欲”的具身导航！NavA3：精确理解，全域探索，精准寻物

论文提出了NavA3，这是一个分层框架，通过全局策略解析高级指令并确定目标区域，以及局部策略利用NaviAfford模型进行精确目标定位，实现了在复杂真实世界环境中理解高级指令并完成长视域导航任务！

2025-09-16 23:38:51 1347

原创阿德莱德大学揭秘具身导航安全隐患！BadNAVer：视觉语言导航中的越狱攻击探索

论文提出了BadNAVer，首个针对多模态大模型驱动的视觉语言导航任务的系统性越狱攻击框架，通过构建恶意查询和插入视觉对象，揭示了MLLM在推理阶段的脆弱性，并在模拟和真实环境中验证了攻击的有效性！

2025-09-15 21:25:06 933

原创加州伯克利反事实推理助力具身导航！CAST：通过反事实标签改善视觉语言行动模型中的指令遵循能力

论文提出CAST方法，通过利用视觉语言模型（VLM）生成反事实的语言和行动标签来增强现有的机器人数据集，从而显著提高了视觉-语言-行动（VLA）模型在遵循复杂语言指令方面的能力。

2025-09-15 21:20:37 968

复旦大学视觉语言导航研究重磅调研！

空空如也