
具身智能
文章平均质量分 89
视觉语言导航
Vision and language navigation!
展开
-
复杂地形越野机器人导航新突破!VERTIFORMER:数据高效多任务Transformer助力越野机器人移动导航
VERTIFORMER作为一种数据高效多任务Transformer,能够仅使用有限的训练数据(一小时)来学习复杂的车辆-地形运动学交互,并在多种越野移动任务上取得了优异的性能,同时提高了模型的泛化能力和对未知环境的适应性!原创 2025-04-25 17:26:47 · 814 阅读 · 0 评论 -
清华大学具身智能体空间推理新范式!Embodied-R:基于强化学习激活基础模型具身空间推理能力的协同框架
本文提出的Embodied-R框架通过协同大规模VLM和小规模LM,并结合强化学习,显著提高了模型在体现空间推理任务上的性能。未来的工作将集中在进一步优化计算资源、提升推理过程的可解释性和泛化能力,以及探索更多应用场景,以推动体现空间推理技术的发展。原创 2025-04-24 20:31:00 · 1210 阅读 · 0 评论 -
纽约大学具身智能体在城市空间中的视觉导航之旅!CityWalker:从海量网络视频中学习城市导航
CityWalker通过利用大规模网络视频数据,显著提升了城市导航的性能,证明了数据扩展对于开发鲁棒导航策略的潜力。原创 2025-04-22 20:18:03 · 631 阅读 · 0 评论 -
北邮LLMs在导航中的应用与挑战!大模型在具身导航中的应用进展综述
论文全面回顾了LLMs在具身导航中的应用,分析了现有模型的优缺点,并比较了LLMs基模型与非LLMs模型。论文指出了LLMs在导航任务中的巨大潜力,但也强调了需要解决数据多样性、细粒度导航和空间推理能力等挑战。未来的研究方向包括动态路径优化、算法和模型架构的优化、与自动驾驶技术的融合以及多模态融合和优化算法的开发。总体而言,LLMs在具身导航中具有广阔的应用前景,但仍需克服现有的技术难题。原创 2025-04-12 20:41:18 · 1191 阅读 · 0 评论 -
北师大具身AI的虚拟世界扩展!UNREALZOO:为具身智能打造高逼真度的虚拟世界
论文提出了UnrealZoo,一个多样化的照片级虚拟世界合集,旨在推动具身AI研究的发展。通过提供高质量的虚拟环境和优化的编程接口,UnrealZoo能够支持高效的单智能体和多智能体系统交互。实验结果表明,多样化的训练环境对智能体的泛化能力和鲁棒性至关重要,而基于RL的方法在处理动态环境和社交互动方面表现出色。未来的工作将继续丰富虚拟世界的场景、实体和交互任务,推动具身AI在现实世界中的应用。原创 2025-04-07 20:49:26 · 883 阅读 · 0 评论 -
香港理工视觉语言模型赋能智能制造最新综述!基于视觉语言模型的人机协作在智能制造中的应用
论文系统地回顾了VLMs在智能制造中人机协作中的最新进展和应用,展示了其在任务规划、导航、操作和技能转移中的潜力。尽管VLMs在多个应用场景中表现出显著的优势,但仍面临实时处理、计算需求和动态环境处理等挑战。未来的研究方向包括提高VLMs的可扩展性、开发更自然和直观的人机交互机制,以及减少VLMs的数据和计算需求,以便在工业环境中大规模部署。通过解决这些挑战,VLMs有望在智能制造中发挥更大的作用,推动制造业的智能化和自动化。原创 2025-04-01 20:56:18 · 880 阅读 · 0 评论 -
港中文迈向安全的具身AI!EARBench:基础模型在具身AI任务规划中的物理风险评估
论文通过EARBench框架和EARDataset,首次系统地评估了EAI智能体在物理环境中的任务规划能力和风险意识。结果表明,当前基础模型在复杂场景下的风险识别能力不足,且简单的模型规模扩大并不能显著改善风险意识。提出的两种风险缓解策略在一定程度上提高了模型的安全性,但仍需进一步研究和开发更有效的安全增强方法。研究强调了在EAI发展中优先考虑安全性的重要性,并为未来的研究方向提供了有价值的见解。原创 2025-03-24 21:22:12 · 896 阅读 · 0 评论 -
清华大学大模型智能体自我认知与决策流程!自知、反思、规划:城市环境目标导航中的大模型智能体新范式
论文提出了用于目标导向城市导航的智能体工作流。该工作流包括微调的LLaVA模型进行空间感知、记忆模块用于综合和反思感知结果及检索的记忆,以及规划模块用于导航路线规划。论文展示了LLMs在城市导航任务中的应用潜力,并通过反思和规划模块显著提高了导航性能。原创 2025-03-23 20:34:06 · 1099 阅读 · 0 评论 -
清华大学城市空间具身推理最新基准!Open3DVQA:全方位评估多模态模型在开放空间的空间推理能力
论文提出了Open3DVQA,一个用于评估多模态大模型在开放空间环境中综合空间推理能力的基准。评估结果表明,当前主流的多模态大模型在定量任务中存在局限性,特别是在定量关系推理和定量目标属性推理方面。通过微调多模态大模型,可以显著增强其空间推理能力。实验结果验证了所提出的训练数据集在提高视觉语言模型空间理解能力方面的有效性。原创 2025-03-22 12:53:06 · 604 阅读 · 0 评论 -
华南理工大学AI进化之道全面综述!大模型智能体的终身学习技术路线
论文系统地总结了将终身学习能力整合到LLMs智能体中的方法和策略。通过感知、记忆和行动模块的协同作用,LLMs智能体能够在动态环境中不断适应和学习。论文的贡献包括提供了终身学习LLMs智能体的基础概述、深入分析了关键组件、讨论了实际应用和评估指标,并指出了未来的研究方向。该研究为开发具有终身学习能力的LLMs智能体提供了重要的理论基础和实践指导。原创 2025-03-20 12:57:15 · 608 阅读 · 0 评论 -
浙大具身AI的安全威胁与对策!面向鲁棒与安全的具身AI:漏洞与攻击综述
论文全面概述了具身AI系统面临的漏洞和攻击向量,特别是集成LVLMs和LLMs所面临的独特挑战。通过将漏洞分类为外生漏洞、内生漏洞和跨维度漏洞,系统分析了对抗性攻击范式,研究了针对LLMs和LVLMs的攻击向量,评估了感知、决策和任务规划中算法的鲁棒性挑战,并提出了增强具身AI系统安全和可靠性的针对性策略。该论文提供了一个综合框架,用于理解具身AI系统中漏洞与安全性之间的相互作用。原创 2025-03-17 16:20:18 · 985 阅读 · 0 评论 -
双层BEV启发式具身导航路径规划新范式!Dual-BEV Nav:非结构化户外环境中的机器人导航
论文提出了一种结合局部和全局BEV规划的方法,从overhead地图中提取的全局BEV提示和实时局部BEV表示。增强了机器人在复杂户外环境中识别可通行性的能力,提高了路径规划的距离。未来的工作将计划结合无人机获取实时俯视视图,以进一步提升系统的鲁棒性和实时性能。原创 2025-03-16 15:59:53 · 873 阅读 · 0 评论 -
中科院自动化所人形机器人研究进展:全面综述与展望
论文全面综述了人形机器人的研究现状、进展和未来前景,强调了生物机制、结构设计、材料应用、驱动和控制方法以及能量利用等方面的挑战。通过集成仿生学、脑启发智能、力学和控制技术,人形机器人的未来发展前景广阔。论文为研究人员提供了宝贵的资源,推动了人形机器人在各个领域的持续发展和潜力挖掘。原创 2025-03-14 12:44:27 · 1957 阅读 · 0 评论 -
智能体在真实世界中的感知与行动融合最新综述!探索多模态具身大模型:发展,数据集与未来方向
论文系统地回顾了具身多模态大模型的发展,分析了基础大模型的技术进步及其在具身任务中的应用。通过分析多个数据集的影响,识别了高质量数据在模型性能提升中的重要性。尽管EMLMs在多个领域取得了显著进展,但仍需解决跨模态对齐、计算资源效率和泛化能力等挑战。未来的研究应关注跨模态预训练和自监督学习,以实现更高效、更灵活的具身智能系统。本文的研究为EMLMs的未来发展提供了有价值的参考和启示。原创 2025-03-12 12:50:26 · 1174 阅读 · 0 评论 -
东大视觉链推理新范式!MageBench:桥梁多模态大模型与智能体的纽带
论文介绍了MageBench,一个以推理能力为导向的多模态智能体基准测试。结果表明,现有的LMMs在视觉思维链、跨模态长上下文理解、视觉想象和空间规划等方面存在显著不足。MageBench为未来的研究提供了有价值的见解和优化方向,并计划在未来增加更多环境以进一步探索智能体级别的技术细节。原创 2025-03-11 12:53:58 · 814 阅读 · 0 评论 -
第三届具身智能国际挑战赛!Autonomous Grand Challenge 2025
2025年度具身智能国际挑战赛旨在通过全球合作促进具身智能和自动驾驶领域的发展。挑战赛道覆盖人形机器人世界模型、端到端自动驾驶、机器人操作三大领域前沿话题,奖金池总额达 10 万美元。原创 2025-03-08 12:20:38 · 817 阅读 · 0 评论 -
开放世界中具身AI的社会推理与规划!VIRTUAL COMMUNITY:基于生成模型的具身AI社交环境
论文介绍了Virtual Community,用于具身AI研究的生成性社交世界平台。通过结合大规模的真实地理空间数据和先进的生成模型,Virtual Community能够生成无限的场景和扎根的社交智能体社区。论文提出的路线规划和选举活动任务展示了该平台在开放世界和社会挑战中的潜力。原创 2025-03-05 13:08:52 · 571 阅读 · 0 评论 -
报告分享 | 哈工大赛尔实验室——大模型时代的具身智能
本报告详细介绍了大模型时代的具身智能,探讨了智能机器人的发展历程、技术挑战和未来发展方向。原创 2025-03-04 14:01:37 · 276 阅读 · 0 评论 -
解锁具身智能时空密码!LLaVA-ST:多模态大模型的细粒度时空理解
论文提出的LLaVA-ST是首个能够端到端处理细粒度时空多模态理解任务的MLLM。通过引入LAPE和STP模块,LLaVA-ST显著提高了模型在多个基准测试中的性能。实验结果表明,LLaVA-ST在处理时空交错任务时具有显著优势,并且在开放式视频问答和多选题视频问答任务中也表现出色。LLaVA-ST的提出为未来的MLLMs在细粒度多模态理解任务上的改进提供了重要的参考。原创 2025-03-04 13:11:14 · 627 阅读 · 0 评论 -
清华大学具身智能最新万字综述!形态、行动、感知与学习的协同效应
论文总结了具身智能的发展,特别是具身人工智能(EAI)的研究。提出了统一的具身智能框架,强调了形态学、动作、感知和学习之间的协同作用。未来的研究可以从这些组件的内在联系中受益。原创 2025-02-26 10:58:32 · 702 阅读 · 0 评论 -
NeurIPS-2024 | 具身智能如何理解空间关系?SpatialRGPT:视觉语言模型中的具象空间推理
论文提出了SpatialRGPT,一种增强视觉语言模型(VLMs)空间推理能力的框架。通过集成区域表示模块和灵活的深度信息插件,SpatialRGPT使VLMs能够在局部和全局范围内有效感知空间排列。原创 2025-02-21 10:23:24 · 1145 阅读 · 0 评论 -
国防科大&清华具身问答最新基准!CityEQA:基于大模型智能体的城市空间具身问答
论文首次探索了城市环境中的EQA任务,提出了CityEQA-EC数据集和Planner-Manager-Actor(PMA)智能体。实验结果表明,PMA在处理城市环境中的具身问答任务时表现出色,但仍存在与人类性能的差距。未来的研究可以集中在增强PMA的自我反思和错误纠正机制上,以减轻长期任务中的误差累积。同时,未来还应扩展CityEQA的范围,包括涉及社会互动和动态事件的任务,进一步扩展PMA并使其能够处理更广泛的城市空间智能挑战。原创 2025-02-19 14:22:41 · 933 阅读 · 0 评论 -
具身导航赋能智能物流!OpenBench:智能物流最后一公里语义导航新基准
论文提出的OPEN系统结合了OSM和先进的基础模型,解决了可扩展和高效户外导航的挑战。通过使用OSM进行轻量级地图表示,并结合LLMs和VLMs进行全球定位、地图更新和门牌号码识别,系统克服了传统方法和基于学习方法的局限性。引入的新基准测试为评估自主配送系统提供了一个有效的框架。原创 2025-02-18 12:32:38 · 776 阅读 · 0 评论 -
报告分享 | 智能导航的发展、趋势和建议——从DeepSeek谈起
智能导航的发展、趋势和建议。原创 2025-02-17 19:38:09 · 973 阅读 · 0 评论 -
五国十五校联合巨献!仿人机器人运动与操控:控制、规划与学习的最新突破与挑战
本文综述了类人运动与操作技能的当前进展和未来趋势。基于模型的规划与控制方法、强化学习、模仿学习和基础模型在该领域中发挥了重要作用。尽管取得了显著进展,但仍存在许多挑战,如数值优化的复杂性、缺乏基准测试和数据稀缺问题。未来的研究方向包括开发更高效的优化算法、建立大规模基准测试、以及利用多模态感知和基础模型与现有的规划与控制系统无缝集成。原创 2025-01-23 14:56:11 · 840 阅读 · 0 评论 -
南科大一个数据集摆平具身任务!ARIO:用于多功能、通用具身智能体的标准统一数据集
论文提出的ARIO标准和新数据集显著改善了具身AI数据集的不足,提供了更丰富、更多样化和更大规模的数据。通过提供统一的数据格式和标准化的数据处理流程,ARIO为开发更强大、更通用的具身AI智能体铺平了道路。原创 2025-01-22 13:01:42 · 1170 阅读 · 0 评论