- 博客(293)
- 收藏
- 关注
原创 ICCV-2025 | 大模型驱动的认知导航框架!CogNav:面向目标导航的大型语言模型驱动的认知过程建模
论文提出CogNav框架,通过模仿人类的认知过程并利用大型语言模型(LLMs)的推理能力,显著提升了具身智能体在未知环境中进行目标导航(ObjectNav)任务的成功率和效率!
2025-09-20 21:01:28
626
原创 RSS-2025 | 无地图具身导航新范式!CREStE:基于互联网规模先验与反事实引导的可扩展无地图导航
论文介绍了可扩展无地图导航框架CRESTE,通过结合视觉基础模型和反事实引导的学习方法,实现了在开放世界中对城市环境的鲁棒导航,显著提升了泛化能力和导航性能!
2025-09-19 19:20:11
445
原创 康奈尔大学视觉-语言-动作模型全面综述:概念、进展、应用与挑战
VLA模型通过整合视觉、语言和动作,显著提升了机器人的感知、理解和执行能力。尽管在实时性、多模态动作表示、数据集偏差和系统集成等方面仍面临挑战,但通过数据高效学习、参数高效方法和加速技术,VLA模型的可扩展性和实时性得到了显著提升。
2025-09-19 19:17:57
624
原创 更符合人类偏好的具身导航!HALO:面向机器人导航的人类偏好对齐离线奖励学习
论文介绍了新型离线奖励学习算法HALO,通过人类偏好对机器人导航进行奖励建模,无需手工设计奖励函数,展现出优越的性能和良好的泛化能力。
2025-09-18 00:07:01
726
原创 中农农业机器人具身导航最新突破!T-araVLN:农业机器人视觉语言导航的指令翻译器
论文提出T-araVLN方法,通过引入指令翻译模块将原始指令转化为精炼精确的形式,显著提高了农业机器人在视觉语言导航任务中的成功率和导航精度,展示了其在农业领域的先进性能!
2025-09-18 00:04:11
975
原创 具身导航技能分解与重组!SkillNav:基于技能的视觉语言导航智能体混合架构
论文提出了SkillNav,基于技能分解和零样本视觉-语言模型路由的模块化视觉语言导航框架,通过将导航任务分解为可复用的原子技能并动态选择最适合的技能智能体,显著提升了VLN智能体在新环境和多样化指令风格下的泛化能力!
2025-09-16 23:42:30
710
原创 清华大学“随心所欲”的具身导航!NavA3:精确理解,全域探索,精准寻物
论文提出了NavA3,这是一个分层框架,通过全局策略解析高级指令并确定目标区域,以及局部策略利用NaviAfford模型进行精确目标定位,实现了在复杂真实世界环境中理解高级指令并完成长视域导航任务!
2025-09-16 23:38:51
1092
原创 阿德莱德大学揭秘具身导航安全隐患!BadNAVer:视觉语言导航中的越狱攻击探索
论文提出了BadNAVer,首个针对多模态大模型驱动的视觉语言导航任务的系统性越狱攻击框架,通过构建恶意查询和插入视觉对象,揭示了MLLM在推理阶段的脆弱性,并在模拟和真实环境中验证了攻击的有效性!
2025-09-15 21:25:06
784
原创 加州伯克利反事实推理助力具身导航!CAST:通过反事实标签改善视觉语言行动模型中的指令遵循能力
论文提出CAST方法,通过利用视觉语言模型(VLM)生成反事实的语言和行动标签来增强现有的机器人数据集,从而显著提高了视觉-语言-行动(VLA)模型在遵循复杂语言指令方面的能力。
2025-09-15 21:20:37
819
原创 上海交大3D体素赋能具身导航!BeliefMapNav:基于3D体素信念图的零样本目标导航
论文提出零样本目标导航系统BeliefMapNav,通过构建3D体素信念图整合层次化空间语义和LLM常识知识,实现了对目标位置的精确估计和高效导航,在多个基准测试中取得了显著的性能提升!
2025-09-15 21:14:15
1372
原创 MSNav:北大&清华基于动态记忆与LLM空间推理的零样本视觉语言导航
论文提出了MSNav框架,通过动态记忆模块、空间推理模块和基于LLM的决策模块的协同工作,在零样本视觉语言导航(ZS-VLN)任务中实现了显著的性能提升,同时引入了I-O-S数据集以增强LLM的空间理解能力,并开发了Qwen-Sp模型以提高对象提取和空间布局推理的准确性。
2025-09-14 15:33:28
769
原创 数据赋能具身智能进化!多模态数据存储与检索全面综述
论文全面综述了具身智能中的多模态数据存储与检索技术,系统评估了多种存储架构和检索范式的适用性,分析了当前技术面临的挑战,并提出了未来研究方向,旨在为具身智能的数据管理提供理论指导和实践建议。
2025-09-14 15:28:12
860
原创 ICCV-2025 | 中科院自动化所世界模型助力具身导航!NavMorph:连续环境中的视觉语言导航自演化世界模型
论文提出了自演化世界模型框架NavMorph,针对连续环境中视觉语言导航(VLN-CE)任务,通过模拟环境动态并实时适应环境变化,显著提升了导航性能,在多个基准测试中表现出色!
2025-09-07 22:37:05
1097
原创 南科大适应、协同与规划的完美融合!P³:迈向多功能的具身智能体
论文介绍了P³框架,旨在构建能够适应动态环境、灵活使用工具并高效规划多任务的多功能具身智能体,通过实验验证了其在现实世界中的有效性和适应性。
2025-09-06 22:20:48
791
原创 具身导航“所想即所见”!VISTA:基于生成式视觉想象的视觉语言导航
论文提出了VISTA框架,通过整合视觉想象、感知对齐和结构化推理,显著提升了视觉语言导航任务的性能,尤其在长时域和视觉模糊场景中表现出色,为智能体导航提供了更鲁棒、可解释的解决方案!
2025-09-06 22:19:05
859
原创 北大“知错就改”具身导航智能体!CorrectNav:自我修正飞轮赋能视觉语言行动导航模型
论文提出视觉语言导航模型CorrectNav,通过“自我修正飞轮”后训练范式,显著提升了模型在模拟和真实环境中的导航性能,尤其在错误纠正、动态避障和长指令执行方面表现出色,为视觉语言导航领域带来了新的突破!
2025-09-06 22:16:29
1417
原创 ICCV-2025 | 清华动以知景导航框架!MTU3D:连接视觉定位与探索,实现高效多样的具身导航
该模型在多个具身导航和问答基准测试中取得了优异的性能,并在真实世界环境中展示了良好的泛化能力。
2025-09-04 09:08:15
721
原创 GoViG:目标引导下的视觉导航指令生成
论文提出了GoViG任务,旨在仅从初始和目标状态的自我中心视觉观察中生成精确且上下文连贯的导航指令。通过将任务分解为导航可视化和指令生成两个子任务,并在自回归多模态大型语言模型中进行联合优化,同时引入两种多模态推理策略,模型在R2R-Goal数据集上展现出优越的指令生成性能和跨域泛化能力。
2025-09-04 09:07:07
841
原创 RoboTron-Nav:美团融合感知、规划与预测的具身导航统一框架
论文提出了RoboTron-Nav框架,通过整合感知、规划和预测能力,并采用多任务协作策略和自适应3D感知历史采样,显著提升了语言引导的视觉导航性能,在CHORES-S基准测试中达到81.1%的成功率,创下新的最高水平。
2025-09-03 20:05:05
1366
原创 为什么几行dropout就能显著提升稀疏3DGS渲染质量?
论文研究了稀疏视图下3D高斯溅射(3DGS)中出现的外观伪影问题,揭示了其根源在于高斯之间的过度纠缠(共适应),并提出了共适应分数(CA)这一量化指标以及随机高斯丢弃和乘性噪声注入两种策略来减轻共适应,显著提升了稀疏视图新视图合成的质量!
2025-09-03 20:02:08
714
原创 上海交大具身导航中的感知智能、社会智能和运动智能全面综述
论文全面综述了具身导航领域,提出了TOFRA框架,系统整合了感知、社交和运动智能的研究进展,分析了现有方法,并指出了未来研究方向,旨在推动具身导航技术的发展和应用!
2025-08-31 13:37:40
705
原创 港科大开放世界长时域具身导航!LOVON:足式机器人开放词汇目标导航
论文提出整合大模型、开放词汇视觉检测模型和语言到运动模型的框架LOVON,旨在解决足式机器人在开放世界环境中执行长时域任务时面临的复杂挑战,包括开放词汇对象检测和高级任务规划等!
2025-08-29 20:40:37
1268
原创 动态环境下的人员感知具身导航!HA-VLN:具备动态多人互动的视觉语言导航基准与排行榜
论文提出HA-VLN的基准测试,用于研究在离散和连续环境中具有动态多人互动、真实世界验证和公开排行榜的人类感知导航,推动了更安全、更智能且更具社会责任感的视觉语言导航研究的发展。
2025-08-29 20:33:13
633
原创 具身导航助力果园种植!基于模仿学习的果园环境无人机视觉导航
论文提出了基于视觉的无人机果园导航方法,采用变分自编码器(VAE)控制器并通过模仿学习框架训练,使无人机能够在果园行间自主导航,对精准农业具有重要意义。
2025-08-27 22:22:25
834
原创 浙大移动机器人上天下地具身导航!TABV:陆-空双模态车辆的自主探索
论文提出陆地-空中双模态车辆(TABV)的自主探索系统,通过分层框架和改进的双模态蒙特卡洛树搜索(BM-MCTS)方法,在给定的能量和时间预算下,灵活切换模态以最大化信息增益!
2025-08-26 20:15:44
450
原创 MM-2025 | 北航双无人机协作助力视觉语言导航!AeroDuo:基于空中双机系统的无人机视觉语言导航
论文提出双高度无人机协作视觉与语言导航任务DuAl-VLN,并构建了相应的HaL-13k数据集,同时设计了AeroDuo框架,通过高海拔无人机的全局视角和低海拔无人机的详细感知能力,实现了显著优于单无人机方法的导航成功率!
2025-08-25 19:41:16
999
原创 上科大解锁城市建模新视角!AerialGo:从航拍视角到地面漫步的3D城市重建
论文提出了AerialGo框架,通过从航拍图像生成逼真的地面视角图像,解决了大规模城市建模中地面数据有限和隐私问题的挑战,并通过AerialGo数据集和广泛的实验验证了其在城市级3D重建中的有效性和优越性!
2025-08-24 17:40:28
1041
原创 浙大具身智能VLN+VLA统一框架!ODYSSEY:开放世界环境下四足机器人的长期探索与操作
论文提出面向四足机器人的长期移动操作任务的统一框架ODYSSEY,通过将分层任务规划与全身控制相结合,成功实现了从模拟到现实的迁移,并在多样化环境和长期任务中展现出强大的泛化能力!
2025-08-23 15:08:21
886
原创 阿德莱德多模态大模型导航能力挑战赛!NavBench:多模态大语言模型在具身导航中的能力探索
论文介绍了用于评估多模态大模型在零样本设置下具身导航能力的基准测试 NavBench,通过导航理解与执行任务,揭示了模型在时间推理和行动基础方面的局限性,并展示了轻量级开源模型在简单导航场景中的潜力。
2025-08-23 15:04:59
1125
原创 武大智能与集成导航小组!i2Nav-Robot:用于的室内外机器人导航与建图的大规模多传感器融合数据集
论文介绍了i2Nav-Robot数据集,集成了多种传感器(包括固态激光雷达、4D毫米波雷达等),通过精确的时间同步和校准,为多传感器融合导航和制图提供了高质量的数据支持,适用于UGV的自主导航和SLAM研究。
2025-08-23 15:00:38
1348
原创 中农具身导航赋能智慧农业!AgriVLN:农业机器人的视觉语言导航
论文提出了Agriculture to Agriculture(A2A)基准测试和AgriVLN方法,通过子任务列表(STL)模块将复杂指令分解为简单子任务,显著提升了农业机器人在视觉与语言导航任务中的性能,特别是在处理长指令时,证明了其在农业领域的有效性和优越性。
2025-08-23 14:55:32
899
原创 多模态大模型驱动的三维视觉理解技术前沿进展
本文全面综述了多模态大模型在三维视觉理解领域的最新进展,涵盖三维视觉数据表示、多模态大模型的发展、三维视觉表征方法、多模态大模型驱动的三维视觉理解任务、机器人三维视觉应用以及相关数据集,旨在促进该领域的深入研究与广泛应用。
2025-08-20 16:33:42
1080
原创 哈工深无人机目标导航新基准!UAV-ON:开放世界空中智能体目标导向导航基准测试
本文提出针对开放世界环境中无人机目标导航的大规模基准测试UAV-ON,通过高保真环境和复杂的语义目标指令,展示了现有导航策略在语义推理、障碍物感知和目标定位方面的挑战!
2025-08-18 21:30:33
1377
原创 华东师范&上海AiLab&商汤!NaviMaster:学习适用于GUI和具身导航任务的统一策略
论文提出统一导航智能体框架NaviMaster,能够将图形用户界面导航和具身导航任务整合到一个单一的强化学习框架中,显著提升了模型在跨任务泛化、数据利用效率和空间定位能力方面的性能!
2025-08-17 20:07:26
1050
原创 西湖大学&新国立,多模态大语言模型能指引我回家吗?ReasonMap:基于交通地图的细粒度视觉推理基准研究
论文通过构建REASONMAP基准数据集,对15种多模态大模型在细粒度视觉理解和空间推理任务上的表现进行了全面评估,揭示了开源与闭源模型在推理能力上的差异,并强调了视觉输入在复杂视觉推理任务中的重要性!
2025-08-16 15:10:42
1040
原创 中山&清华:基于大模型的具身智能系统综述
本文综述了基于大模型的具身智能系统,介绍了大模型在具身智能中的感知与理解作用、控制层级、系统架构以及数据来源,并探讨了当前面临的挑战和未来发展方向!
2025-08-14 21:52:03
978
原创 上科大零样本目标检索赋能具身导航!osmAG-LLM:基于语义地图和大模型推理的零样本开放词汇目标导航
osmAG-LLM结合轻量级文本语义地图和大型语言模型推理,通过在线检测和动态导航,有效提高了在动态环境或未映射目标情况下的检索成功率和导航效率!
2025-08-14 21:08:53
1001
原创 人大&BABEC&地平线高效率具身导航!Aux-Think:探索视觉语言导航中数据高效的推理策略
论文通过系统性研究VLN任务中的推理策略,提出了Aux-Think框架,解决了推理时间推理崩溃(IRC)问题,并通过R2R-CoT-320k数据集验证了其在数据效率和导航性能上的优势。
2025-08-12 20:03:26
1224
原创 MM DEMO-2025 | 北航新融合LLM与多模态交互的无人机导航系统!AirStar,智能空中助手等你来体验
论文介绍了无人机导航系统AirStar,通过将无人机的高机动性与大型语言模型(LLM)的认知能力相结合,实现了自然语言交互、复杂任务规划、地理空间与视觉语言导航以及多种智能交互功能。
2025-08-12 13:03:20
1400
原创 AAAI-2025 | 北理工具身导航新范式!FloNa:基于平面图引导的具身视觉导航
论文提出FloNa任务,将平面图引入到具身视觉导航中,并设计了FloDiff框架,通过扩散策略和显式定位模块解决了平面图与实际场景的空间不一致性和观察图像与平面图的对齐问题。
2025-08-11 22:02:18
984
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人