
具身智能benchmark
文章平均质量分 91
视觉语言导航
Vision and language navigation!
展开
-
纽约大学具身智能体在城市空间中的视觉导航之旅!CityWalker:从海量网络视频中学习城市导航
CityWalker通过利用大规模网络视频数据,显著提升了城市导航的性能,证明了数据扩展对于开发鲁棒导航策略的潜力。原创 2025-04-22 20:18:03 · 644 阅读 · 0 评论 -
清华大学城市空间具身连续视觉感知问答基准测试!UrbanVideo-Bench:首个针对多模态大模型的运动认知评估数据集
论文提出了UrbanVideo-Bench,首个针对城市开放空间中运动具身认知的基准测试。实验结果表明,当前最好的Video-LLMs在城市开放空间中的具身认知能力仍有很大提升空间。分析发现,因果推理与其他任务高度相关,微调大模型可以提高其在真实世界具身视频任务上的性能。原创 2025-03-13 12:40:10 · 1046 阅读 · 0 评论 -
微软具身智能感知交互多面手!Magma:基于基础模型的多模态AI智能体
论文提出了Magma,第一个能够在数字和物理世界中理解和执行多模态输入的基础模型。通过引入SoM和ToM技术,Magma显著增强了时空智能,并在多个任务上取得了新的SOTA结果。该模型的训练数据集广泛且多样,涵盖了图像、视频和机器人领域的多种数据类型,确保了模型的泛化能力。总体而言,Magma为多模态AI智能体的发展提供了一个强大的基础模型。原创 2025-03-01 10:10:30 · 1162 阅读 · 0 评论 -
上海AI实验室无人机视觉语言导航最新基准!OpenFly:空中VLN的全能工具链与大规模测试基准
论文提出了OpenFly平台,用于大规模数据收集和室外空中VLN任务。OpenFly集成了多种渲染引擎,生成了多样且高质量的数据。提出的OpenFly-Agent模型在多个评估指标上表现优异,验证了其有效性,并为未来的空中导航研究提供了一个全面的基准。原创 2025-02-28 12:58:51 · 811 阅读 · 0 评论 -
城市复杂环境下具身大模型基准测试!UrBench:综合评估多模态大模型在多视图城市场景中的基准
论文提出了UrBench,一个用于评估多模态大模型在城市环境中表现的新基准。通过收集和预处理多视角图像数据,设计了多种方法生成高质量的问题样本,并进行了详细的评估和分析。结果表明,当前LLMs在城市环境中的表现仍有显著不足,特别是在跨视角理解和地理定位任务中。研究结果为进一步改进LLMs在城市场景中的应用提供了指导。原创 2025-02-27 12:28:19 · 789 阅读 · 0 评论 -
AAAI-2025 | 厦门大学GPS拒止下的无人机定位新基准!Game4Loc:基于游戏数据的无人机地理定位任务与基准测试
本文提出了一个新的基准和数据集GTA-UAV,用于无人机地理定位问题,特别是部分匹配对的情况。通过引入加权对比学习方法weighted-InfoNCE,提升了模型在部分匹配任务中的性能。实验结果表明,该数据集和方法在实际应用中具有显著的潜力和泛化能力。原创 2025-02-22 12:43:18 · 1106 阅读 · 0 评论 -
国防科大&清华具身问答最新基准!CityEQA:基于大模型智能体的城市空间具身问答
论文首次探索了城市环境中的EQA任务,提出了CityEQA-EC数据集和Planner-Manager-Actor(PMA)智能体。实验结果表明,PMA在处理城市环境中的具身问答任务时表现出色,但仍存在与人类性能的差距。未来的研究可以集中在增强PMA的自我反思和错误纠正机制上,以减轻长期任务中的误差累积。同时,未来还应扩展CityEQA的范围,包括涉及社会互动和动态事件的任务,进一步扩展PMA并使其能够处理更广泛的城市空间智能挑战。原创 2025-02-19 14:22:41 · 942 阅读 · 0 评论 -
开放世界中的持续学习!EvoAgent:世界模型驱动的面向长期任务的自主进化智能体
EvoAgent是一个自主进化的智能体框架,旨在通过自我规划、自我控制和自我反思来自动完成各种长视距(LH)任务。EvoAgent包含三个主要模块:记忆驱动的规划器、世界模型(WM)引导的动作控制器和经验启发的反思模块。此外,EvoAgent还包括一个多模态经验池和一个持续世界模型。论文提出了EvoAgent,具有持续世界模型的自主进化智能体,能够通过自我规划、自我控制和自我反思自主完成长时任务。尽管总体成功率为30.29%,但在高级任务上的绝对成功率仍然较低,表明环境中存在未解决的随机性问题。原创 2025-02-17 13:56:45 · 788 阅读 · 0 评论 -
ECCV-2024 | Minecraft中的视-听-思!STEVE:虚拟环境中的具身智能体
STEVE是一个用于具身智能体的LLM多模态自主系统,它能够使用视觉状态和环境信息来管理和执行复杂的任务。具体来说,STEVE通过将视觉感知、语言指令和代码动作结合起来,生成可执行的代码动作:其中, 是整个系统的函数, 是视觉感知模块, 是语言指令模块, 是代码动作模块。STEVE通过结合视觉编码器和基于LLM的智能体,增强了多模态学习。其视觉感知、语言指令和代码动作功能使其能够在虚拟环境中理解、预测和行动。原创 2025-02-16 11:05:00 · 794 阅读 · 0 评论 -
ICML-2024 | 具身智能如何数据自由?RoboGen:基于生成式模拟实现全自动无限数据机器人学习
论文介绍了RoboGen,一种通过生成模拟实现机器人技能自动学习的生成智能体。RoboGen利用最新基础模型的嵌入常识和生成能力,自动生成多样化的任务、场景和训练监督,从而实现大规模机器人技能学习。实验结果表明,RoboGen能够生成多样化的任务,并在模拟环境中有效地学习技能。尽管当前系统仍存在一些局限性,如大规模验证的挑战和模拟到现实的差距,但RoboGen展示了在自动化大规模机器人技能训练和演示收集方面的潜力。原创 2025-02-15 19:04:17 · 948 阅读 · 0 评论 -
NeurIPS-2024-D&B | 李飞飞团队提出具身决策评估通用平台!EAI:具身决策能力评估基准
LLMs已经成为构建具身决策智能体的强大工具,这些智能体能够在各种数字和物理环境中遵循人类指令并通过一系列动作实现指定目标。尽管取得了许多成功案例,但对LLMs在具身决策中的能力和局限性仍缺乏全面理解。论文提出了一个系统化的评估框架EMBODIED AGENT INTERFACE,用于基准测试LLMs在具身决策制定中的表现。通过标准化目标规范、统一决策任务和提供细粒度的评估指标,该框架能够全面评估LLMs在不同子任务上的表现,指出其优缺点,并为有效和有选择性地使用LLMs提供了参考。原创 2025-02-12 10:18:36 · 1021 阅读 · 0 评论 -
UC伯克利具身仿真平台!HumanoidBench:人形机器人全身运动与操控模拟测试基准
论文提出了HumanoidBench,一个高维的仿人机器人控制基准,旨在加速仿人机器人算法的研究。HumanoidBench包含27个任务,涵盖从简单的到复杂的全身协调和控制。实验结果表明,现有的强化学习算法在大多数任务上表现不佳,而分层强化学习方法在复杂任务中表现出色。未来工作将包括多模态高维观测的引入和更现实的对象和环境。原创 2025-02-10 12:22:10 · 1068 阅读 · 0 评论 -
CVPR-2024 | 让智能体站在舞台中央!EgoThink: 评估视觉语言模型的第一人称视角思维能力
论文介绍了EgoThink,全面评估VLMs第一人称思考能力的新基准。尽管顶级VLMs在大多数维度中的得分仅为60分左右,但GPT-4V在总体表现上仍然是最好的。分析表明,LLM的总参数量对模型性能影响最大。尽管自动评估器与人类评估者之间的高一致性,但由于答案中详细信息的原因,规划维度的评估仍然困难。原创 2025-02-10 12:20:50 · 958 阅读 · 0 评论 -
具身智能体如何规划决策!ET-Plan-Bench:面向基础模型时空认知的具身任务级规划基准
论文提出了一个新的具身任务规划基准ET-Plan-Bench,并展示了现有基础模型在具身任务规划中的挑战和潜力。通过引入空间和时间约束,显著增加了任务的难度,发现SOTA的LLMs在处理这些复杂任务时表现不佳。通过监督微调,较小的模型也可以达到与SOTA模型相当的水平。该基准为未来的具身任务规划研究提供了一个大规模、自动化、细粒度的诊断框架。原创 2025-02-08 14:05:06 · 753 阅读 · 0 评论 -
北大AGI与具身智能评估新范式!Tong测试:基于动态具身物理和社会互动的评估标准
论文提出了一种基于DEPSI环境的AGI评估方法—Tong测试,解决了传统AI评估方法的局限性。通过无限任务生成、价值和能力导向的评估,Tong测试能够全面评估AGI的能力和价值。该方法为AGI的开发和标准化提供了一个实用路径,推动了AGI领域的发展。原创 2025-02-05 15:04:12 · 934 阅读 · 0 评论 -
具身智能体空间感知基础!ROBOSPATIAL:评测并增强2D和3D视觉语言模型空间理解水平
论文介绍了ROBOSPATIAL和ROBOSPATIAL-Home,一个大规模的空间理解训练和评估数据集,专为机器人应用设计。实验结果表明,ROBOSPATIAL训练的模型在空间理解方面表现优异,能够泛化到未见过的空间关系,并在真实机器人实验中展现出实际应用能力。原创 2025-01-31 20:18:40 · 1272 阅读 · 0 评论 -
具身大模型有多少斤两?EmbodiedEval:多模态大模型执行具身任务能力的评测基准
论文提出了EMBODIEDEVAL,首次为MLLMs提供了一个综合的互动评估基准。通过实验发现,当前的MLLMs在具身任务上表现不佳,显示出在处理复杂、多步目标方面的挑战。论文为评估MLLMs的具身能力提供了新的方法和工具,具有重要的理论和实践意义。原创 2025-01-30 20:57:10 · 1188 阅读 · 0 评论 -
构建具身智能体的时空宇宙!GRUtopia:畅想城市规模下通用机器人的生活图景
论文提出了GRUtopia项目,旨在为各种机器人提供一个城市规模的仿真交互3D社会。GRUtopia包括一个大规模的场景数据集GRScenes、一个由LLM驱动的NPC系统GRResidents和一个基准测试GRBench。实验结果表明,GRUtopia能够有效评估现有算法在具身任务中的表现,并为未来的研究提供了一个全面的评估工具。原创 2025-01-29 19:31:58 · 1466 阅读 · 0 评论