自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(304)
  • 收藏
  • 关注

原创 《Pattern Recognition》“开放城市环境下的无人系统空间具身智能”专刊征文通知

《Pattern Recognition》“开放城市环境下的无人系统空间具身智能”专刊征文通知

2025-10-10 21:05:34 476

原创 ICRA-2025 | 机器人具身探索导航新策略!CTSAC:基于课程学习Transformer SAC算法的目标导向机器人探索

论文提出了基于课程学习的 Transformer 强化学习算法CTSAC,通过集成 Transformer 到SAC框架中,利用历史信息增强机器人的环境推理能力,并采用定期复习的课程学习策略提高训练效率和泛化性能!

2025-10-10 21:03:04 803

原创 ICRA-2025 | 阿德莱德机器人拓扑导航探索!TANGO:具有局部度量控制的拓扑目标可穿越性感知具身导航

论文提出基于物体的拓扑-度量导航方法TANGO,通过将全局拓扑路径规划与局部度量轨迹规划相结合,实现了无需3D地图或预训练控制器的零样本机器人导航,显著优于现有方法,并在模拟和现实环境中展示了其鲁棒性和可部署性!

2025-10-10 21:01:33 674

原创 解锁机器人导航的全模态潜能!OmniVLA:机器人导航的全模态视觉-语言-动作模型

论文提出了OmniVLA模型,通过融合多种模态(2D姿态、自身中心图像和自然语言)的目标条件进行训练,实现了强大的泛化能力和鲁棒性,为机器人视觉导航提供了一个灵活且可扩展的基础模型!

2025-09-28 21:35:52 976

原创 清华世界模型与具身智能融合全面综述!具身智能:从LLMs到世界模型

论文探讨了具身AI从LLMs到WMs的发展,分析了二者在具身AI中的作用,提出了联合MLLMs与WMs的架构,强调其对复杂任务的重要性,总结了具身AI的应用,并展望了未来研究方向,推动具身AI向通用物理智能发展!

2025-09-28 21:33:07 516

原创 CVPR-2025 | 具身导航指令高效生成!MAPInstructor:基于场景图的导航指令生成Prompt调整策略

MAPINSTRUCTOR 通过将拓扑地图连接作为提示特征整合到 LLM 中,有效地解决了 NIG 中的空间场景理解问题,在复杂室内环境中取得了令人满意的性能!

2025-09-27 15:34:35 1309

原创 地平线机器人具身导航快慢推理新探索!FSR-VLN:基于分层多模态场景图快慢推理的视觉语言导航

论文提出视觉语言导航系统FSR-VLN,通过结合分层多模态场景图(HMSG)和快慢速推理(FSR)机制,在真实世界的长距离导航任务中实现了高成功率和低响应时间,显著优于现有方法,并展示了其在人形机器人上的应用潜力!

2025-09-27 15:31:01 915

原创 RAL-2025 | EffoNAV:清华大学基于基础模型的复杂环境高效视觉导航方法

论文提出了基于预训练基础模型的视觉导航方法EffoNAV,通过引入交叉注意力和Token注意力机制,显著提升了机器人在复杂环境下的导航性能!

2025-09-25 16:21:34 981

原创 语义分割赋能未知环境具身导航!SEMNAV:语义分割驱动的视觉语义导航

论文提出了视觉语义导航新方法SEMNAV,通过利用语义分割作为主要视觉输入,有效提升了机器人在模拟环境和现实世界中的导航性能,显著缩小了模拟到现实的领域差距,并发布了相应的数据集以支持进一步研究!

2025-09-25 16:18:17 582

原创 ICCV-2025 | 对话协作驱动具身导航!DialNav:远程向导指导下的多轮对话导航

论文介绍了具身对话导航任务 DialNav,该任务通过模拟现实世界中导航智能体与远程向导之间的多轮对话来完成导航目标,并为此收集发布了 RAIN 数据集,同时设计了综合评估基准并进行了实验分析,揭示了任务的关键挑战,旨在推动具身对话导航领域的发展!

2025-09-22 21:38:47 1220

原创 ICCV-2025 | 斯坦福人形机器人自主导航!LookOut:真实环境人形机器人第一人称视角导航

论文提出了LookOut模型,用于从第一人称视角视频预测未来6D头部姿态轨迹,以实现人形机器人在真实世界中的无碰撞导航,并贡献了相应的数据收集流程和数据集,通过实验验证了模型的有效性和泛化能力!

2025-09-22 21:34:28 908

原创 ICCV-2025 | 大模型驱动的认知导航框架!CogNav:面向目标导航的大型语言模型驱动的认知过程建模

论文提出CogNav框架,通过模仿人类的认知过程并利用大型语言模型(LLMs)的推理能力,显著提升了具身智能体在未知环境中进行目标导航(ObjectNav)任务的成功率和效率!

2025-09-20 21:01:28 1080

原创 RSS-2025 | 无地图具身导航新范式!CREStE:基于互联网规模先验与反事实引导的可扩展无地图导航

论文介绍了可扩展无地图导航框架CRESTE,通过结合视觉基础模型和反事实引导的学习方法,实现了在开放世界中对城市环境的鲁棒导航,显著提升了泛化能力和导航性能!

2025-09-19 19:20:11 587

原创 康奈尔大学视觉-语言-动作模型全面综述:概念、进展、应用与挑战

VLA模型通过整合视觉、语言和动作,显著提升了机器人的感知、理解和执行能力。尽管在实时性、多模态动作表示、数据集偏差和系统集成等方面仍面临挑战,但通过数据高效学习、参数高效方法和加速技术,VLA模型的可扩展性和实时性得到了显著提升。

2025-09-19 19:17:57 857

原创 更符合人类偏好的具身导航!HALO:面向机器人导航的人类偏好对齐离线奖励学习

论文介绍了新型离线奖励学习算法HALO,通过人类偏好对机器人导航进行奖励建模,无需手工设计奖励函数,展现出优越的性能和良好的泛化能力。

2025-09-18 00:07:01 769

原创 中农农业机器人具身导航最新突破!T-araVLN:农业机器人视觉语言导航的指令翻译器

论文提出T-araVLN方法,通过引入指令翻译模块将原始指令转化为精炼精确的形式,显著提高了农业机器人在视觉语言导航任务中的成功率和导航精度,展示了其在农业领域的先进性能!

2025-09-18 00:04:11 1114

原创 具身导航技能分解与重组!SkillNav:基于技能的视觉语言导航智能体混合架构

论文提出了SkillNav,基于技能分解和零样本视觉-语言模型路由的模块化视觉语言导航框架,通过将导航任务分解为可复用的原子技能并动态选择最适合的技能智能体,显著提升了VLN智能体在新环境和多样化指令风格下的泛化能力!

2025-09-16 23:42:30 813

原创 清华大学“随心所欲”的具身导航!NavA3:精确理解,全域探索,精准寻物

论文提出了NavA3,这是一个分层框架,通过全局策略解析高级指令并确定目标区域,以及局部策略利用NaviAfford模型进行精确目标定位,实现了在复杂真实世界环境中理解高级指令并完成长视域导航任务!

2025-09-16 23:38:51 1142

原创 阿德莱德大学揭秘具身导航安全隐患!BadNAVer:视觉语言导航中的越狱攻击探索

论文提出了BadNAVer,首个针对多模态大模型驱动的视觉语言导航任务的系统性越狱攻击框架,通过构建恶意查询和插入视觉对象,揭示了MLLM在推理阶段的脆弱性,并在模拟和真实环境中验证了攻击的有效性!

2025-09-15 21:25:06 810

原创 加州伯克利反事实推理助力具身导航!CAST:通过反事实标签改善视觉语言行动模型中的指令遵循能力

论文提出CAST方法,通过利用视觉语言模型(VLM)生成反事实的语言和行动标签来增强现有的机器人数据集,从而显著提高了视觉-语言-行动(VLA)模型在遵循复杂语言指令方面的能力。

2025-09-15 21:20:37 854

原创 上海交大3D体素赋能具身导航!BeliefMapNav:基于3D体素信念图的零样本目标导航

论文提出零样本目标导航系统BeliefMapNav,通过构建3D体素信念图整合层次化空间语义和LLM常识知识,实现了对目标位置的精确估计和高效导航,在多个基准测试中取得了显著的性能提升!

2025-09-15 21:14:15 1438

原创 MSNav:北大&清华基于动态记忆与LLM空间推理的零样本视觉语言导航

论文提出了MSNav框架,通过动态记忆模块、空间推理模块和基于LLM的决策模块的协同工作,在零样本视觉语言导航(ZS-VLN)任务中实现了显著的性能提升,同时引入了I-O-S数据集以增强LLM的空间理解能力,并开发了Qwen-Sp模型以提高对象提取和空间布局推理的准确性。

2025-09-14 15:33:28 817

原创 数据赋能具身智能进化!多模态数据存储与检索全面综述

论文全面综述了具身智能中的多模态数据存储与检索技术,系统评估了多种存储架构和检索范式的适用性,分析了当前技术面临的挑战,并提出了未来研究方向,旨在为具身智能的数据管理提供理论指导和实践建议。

2025-09-14 15:28:12 900

原创 ICCV-2025 | 中科院自动化所世界模型助力具身导航!NavMorph:连续环境中的视觉语言导航自演化世界模型

论文提出了自演化世界模型框架NavMorph,针对连续环境中视觉语言导航(VLN-CE)任务,通过模拟环境动态并实时适应环境变化,显著提升了导航性能,在多个基准测试中表现出色!

2025-09-07 22:37:05 1170

原创 南科大适应、协同与规划的完美融合!P³:迈向多功能的具身智能体

论文介绍了P³框架,旨在构建能够适应动态环境、灵活使用工具并高效规划多任务的多功能具身智能体,通过实验验证了其在现实世界中的有效性和适应性。

2025-09-06 22:20:48 810

原创 具身导航“所想即所见”!VISTA:基于生成式视觉想象的视觉语言导航

论文提出了VISTA框架,通过整合视觉想象、感知对齐和结构化推理,显著提升了视觉语言导航任务的性能,尤其在长时域和视觉模糊场景中表现出色,为智能体导航提供了更鲁棒、可解释的解决方案!

2025-09-06 22:19:05 901

原创 北大“知错就改”具身导航智能体!CorrectNav:自我修正飞轮赋能视觉语言行动导航模型

论文提出视觉语言导航模型CorrectNav,通过“自我修正飞轮”后训练范式,显著提升了模型在模拟和真实环境中的导航性能,尤其在错误纠正、动态避障和长指令执行方面表现出色,为视觉语言导航领域带来了新的突破!

2025-09-06 22:16:29 1444

原创 ICCV-2025 | 清华动以知景导航框架!MTU3D:连接视觉定位与探索,实现高效多样的具身导航

该模型在多个具身导航和问答基准测试中取得了优异的性能,并在真实世界环境中展示了良好的泛化能力。

2025-09-04 09:08:15 758

原创 GoViG:目标引导下的视觉导航指令生成

论文提出了GoViG任务,旨在仅从初始和目标状态的自我中心视觉观察中生成精确且上下文连贯的导航指令。通过将任务分解为导航可视化和指令生成两个子任务,并在自回归多模态大型语言模型中进行联合优化,同时引入两种多模态推理策略,模型在R2R-Goal数据集上展现出优越的指令生成性能和跨域泛化能力。

2025-09-04 09:07:07 871

原创 RoboTron-Nav:美团融合感知、规划与预测的具身导航统一框架

论文提出了RoboTron-Nav框架,通过整合感知、规划和预测能力,并采用多任务协作策略和自适应3D感知历史采样,显著提升了语言引导的视觉导航性能,在CHORES-S基准测试中达到81.1%的成功率,创下新的最高水平。

2025-09-03 20:05:05 1403

原创 为什么几行dropout就能显著提升稀疏3DGS渲染质量?

论文研究了稀疏视图下3D高斯溅射(3DGS)中出现的外观伪影问题,揭示了其根源在于高斯之间的过度纠缠(共适应),并提出了共适应分数(CA)这一量化指标以及随机高斯丢弃和乘性噪声注入两种策略来减轻共适应,显著提升了稀疏视图新视图合成的质量!

2025-09-03 20:02:08 740

原创 上海交大具身导航中的感知智能、社会智能和运动智能全面综述

论文全面综述了具身导航领域,提出了TOFRA框架,系统整合了感知、社交和运动智能的研究进展,分析了现有方法,并指出了未来研究方向,旨在推动具身导航技术的发展和应用!

2025-08-31 13:37:40 747

原创 港科大开放世界长时域具身导航!LOVON:足式机器人开放词汇目标导航

论文提出整合大模型、开放词汇视觉检测模型和语言到运动模型的框架LOVON,旨在解决足式机器人在开放世界环境中执行长时域任务时面临的复杂挑战,包括开放词汇对象检测和高级任务规划等!

2025-08-29 20:40:37 1299

原创 动态环境下的人员感知具身导航!HA-VLN:具备动态多人互动的视觉语言导航基准与排行榜

论文提出HA-VLN的基准测试,用于研究在离散和连续环境中具有动态多人互动、真实世界验证和公开排行榜的人类感知导航,推动了更安全、更智能且更具社会责任感的视觉语言导航研究的发展。

2025-08-29 20:33:13 668

原创 具身导航助力果园种植!基于模仿学习的果园环境无人机视觉导航

论文提出了基于视觉的无人机果园导航方法,采用变分自编码器(VAE)控制器并通过模仿学习框架训练,使无人机能够在果园行间自主导航,对精准农业具有重要意义。

2025-08-27 22:22:25 874

原创 浙大移动机器人上天下地具身导航!TABV:陆-空双模态车辆的自主探索

论文提出陆地-空中双模态车辆(TABV)的自主探索系统,通过分层框架和改进的双模态蒙特卡洛树搜索(BM-MCTS)方法,在给定的能量和时间预算下,灵活切换模态以最大化信息增益!

2025-08-26 20:15:44 460

原创 MM-2025 | 北航双无人机协作助力视觉语言导航!AeroDuo:基于空中双机系统的无人机视觉语言导航

论文提出双高度无人机协作视觉与语言导航任务DuAl-VLN,并构建了相应的HaL-13k数据集,同时设计了AeroDuo框架,通过高海拔无人机的全局视角和低海拔无人机的详细感知能力,实现了显著优于单无人机方法的导航成功率!

2025-08-25 19:41:16 1081

原创 上科大解锁城市建模新视角!AerialGo:从航拍视角到地面漫步的3D城市重建

论文提出了AerialGo框架,通过从航拍图像生成逼真的地面视角图像,解决了大规模城市建模中地面数据有限和隐私问题的挑战,并通过AerialGo数据集和广泛的实验验证了其在城市级3D重建中的有效性和优越性!

2025-08-24 17:40:28 1062

原创 浙大具身智能VLN+VLA统一框架!ODYSSEY:开放世界环境下四足机器人的长期探索与操作

论文提出面向四足机器人的长期移动操作任务的统一框架ODYSSEY,通过将分层任务规划与全身控制相结合,成功实现了从模拟到现实的迁移,并在多样化环境和长期任务中展现出强大的泛化能力!

2025-08-23 15:08:21 954

原创 阿德莱德多模态大模型导航能力挑战赛!NavBench:多模态大语言模型在具身导航中的能力探索

论文介绍了用于评估多模态大模型在零样本设置下具身导航能力的基准测试 NavBench,通过导航理解与执行任务,揭示了模型在时间推理和行动基础方面的局限性,并展示了轻量级开源模型在简单导航场景中的潜力。

2025-08-23 15:04:59 1136

复旦大学视觉语言导航研究重磅调研!

复旦大学视觉语言导航研究重磅调研!

2025-06-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除