点击下方卡片,关注“具身智能之心”公众号
作者 | Kaixuan Jiang等 编辑 | 具身智能之心
本文只做学术分享,如有侵权,联系删文
更多干货,欢迎加入国内首个具身智能全栈学习社区:具身智能之心知识星球(戳我),这里包含所有你想要的。
近日,中山大学HCP-Lab联合鹏城实验室、香港科技大学提出面向主动探索的可信具身问答数据基准EXPRESS-Bench,支持智能体主动探索,并针对现有具身问答数据集中存在的关键问题(如答案模糊性)进行了优化,以提升任务执行的可靠性和评估的准确性。

作者:Kaixuan Jiang1, Yang Liu1, Weixing Chen1, Jingzhou Luo1, Ziliang Chen2, Ling Pan3, Guanbin Li1,2, Liang Lin1,2
单位:1中山大学,2鹏城实验室,3香港科技大学
项目主页:https://hcplab-sysu.github.io/EXPRESS-Bench/
论文地址:https://arxiv.org/pdf/2503.11117
背景
具身问答(Embodied Question Answering, EQA)是具身智能领域的一项前沿研究任务,要求具身智能体在三维环境中自主导航、探索并收集视觉信息,以回答有关场景的问题。与传统的问答系统依赖静态图像或预定义知识库不同,EQA 需要智能体进行顺序决策,通过主动探索动态获取关键信息,从而生成答案。因此,传统的 QA 方法难以适用于 EQA,因为它们缺乏对动态环境、多步骤推理以及具身导航的建模能力。这种感知、推理和行动的独特组合使 EQA 成为一个引人注目但又具有挑战性的问题,对机器人、虚拟助手和自动导航等现实世界的应用具有重要意义。
然而,现有具身问答任务仍存在诸多问题,包括:
智能体利用虚假相关性生成答案,而非真正推理,导致回答的可靠性不足;
问题设计的模糊性和场景复杂性使得答案的唯一性难以保证;
现有指标无法评估答案的可信度,并且难以有效检测模型幻觉。

主要贡献
推出了 EXPRESS-Bench,这是一个高质量、大规模的 EQA 基准,支持主动探索,解决了现有数据集存在的答案模糊性问题,并减少了对静态先验知识的依赖。
提出了混合探索框架 Fine-EQA,结合粗粒度边界探索和细粒度目标导向探索,提升了导航效率,实现对任务相关区域的精细探索,建立了 EQA 任务新的基线。
引入了探索答案一致性指标EAC,同时评估答案的正确性和可靠性,比传统指标更加严格地衡量模型性能。
基准
与视觉问答数据集相比,EQA 数据集是在三维空间中构建的,包含静态场景描述和动态交互,因此其构建是一项更具挑战性的任务。并且,3D 环境的复杂性往往会导致答案不唯一,使得模型评估具有挑战性。此外,现有数据集很少支持主动探索。针对以上几个方面,我们提出了一个探索感知的 EQA 基准EXPRESS-Bench,它通过以下方式进行构建:
1)轨迹生成阶段:
在场景中随机选取可导航的起始位置与目标位置,生成从起点到目标点的最短路径,并记录每一步智能体的坐标、方向及视觉观测信息。鉴于模拟环境的规模很大,将初始位置和目标位置限制在同一楼层。
以第一人称视角记录完整探索过程,并生成轨迹视频。
2)问答对生成阶段:
在目标位置,结合视觉观察和示例问答对,将数据输入多模态大模型,由其生成日常家庭场景中自然对话风格的问题与答案。
采用开放式答案,避免数据偏差,提高模型推理能力。
3)数据筛选阶段:
手动筛选问题,确保所有问题的答案唯一且与场景高度相关。
必要时,指定问题的相关区域。

最终,EXPRESS-Bench 包含 777 条轨迹和2,044 组问答数据,覆盖七类问题:状态、知识、位置、属性、计数、存在和对象。


模型Fine-EQA

在探索过程中,agent使用 3D 体素图维护整体的环境表示,该图投影到 2D 平面图以跟踪探索状态和空间占用情况。
全局语义图指导基于边界的探索
在每个时间步,agent 将其当前的 RGB 观测投影到2D 平面图上,并应用最远点采样来识别最大化空间覆盖的可导航点。这些采样点P被反向投影到原始 RGB 图像上,结合局部与全局语义值对全局语义图进行更新。
根据2D平面图判断边界点并进行聚类以获得候选边界点。每个候选边界点根据其语义值、探索方向上的探索率、占用率和与当前位置的距离赋予相应的权重,作为概率从中随机选择一个作为下一个探索的位置。
功能区域语义图引导任务相关区域内的深入探索
利用 LLMs 解析问题,确定相关区域并进行优先级排序。
根据agent的视觉观察,结合 VLMs 对区域类型和区域内点的置信度更新功能区域语义图。当 agent 识别到任务相关区域时,基于功能区域语义图对全局语义图进行掩蔽操作,使智能体优先探索任务相关区域。为了防止重复探索,先前访问过的位置在语义图内会获得较低的语义值。
评估指标

正确性分数 和接地性 分数由VLMs给出:

其中, 是给定的问题, 是正确答案, 是模型的响应, 是 agent 终止位置处第一人称视角下的视觉观察。最终答案的分数计算为 * 。
模型响应正确性:

表示不考虑答案接地性的C
任务完成效率:

其中,N是问题总数, 表示 agent 沿着足以完成任务的路径导航的距离(数据生成时记录的最短导航距离), 是代理在探索期间移动的实际距离。
与目标位置的测地距离

其中, 是终止探索位置, 是目标位置。
实验分析
我们在 EXPRESS-Bench 上对各种模型进行广泛的评估。

被动观察的环境信息未能给模型带来较大的性能提升;
具有主动探索能力的智能体表现出增强的环境感知能力,并且表现优于几乎所有非探索性模型;
Fine-EQA 在各种指标上都表现良好;
现有模型与人类表现相比仍然存在显著差距。
【具身智能之心】技术交流群
具身智能之心是国内首个面向具身智能领域的开发者社区,聚焦大模型、视觉语言导航、VLA、机械臂抓取、双足机器人、四足机器人、感知融合、强化学习、模仿学习、规控与端到端、机器人仿真、产品开发、自动标注等多个方向,目前近60+技术交流群,欢迎加入!扫码添加小助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)
【具身智能之心】知识星球
具身智能之心知识星球是国内首个具身智能开发者社区,也是最专业最大的交流平台,近1000人。主要关注具身智能相关的数据集、开源项目、具身仿真平台、大模型、视觉语言模型、强化学习、具身智能感知定位、机器臂抓取、姿态估计、策略学习、轮式+机械臂、双足机器人、四足机器人、大模型部署、端到端、规划控制等方向。星球内部为大家汇总了近40+开源项目、近60+具身智能相关数据集、行业主流具身仿真平台、强化学习全栈学习路线、具身智能感知学习路线、具身智能交互学习路线、视觉语言导航学习路线、触觉感知学习路线、多模态大模型学理解学习路线、多模态大模型学生成学习路线、大模型与机器人应用、机械臂抓取位姿估计学习路线、机械臂的策略学习路线、双足与四足机器人开源方案、具身智能与大模型部署等方向,涉及当前具身所有主流方向。
扫码加入星球,享受以下专有服务:
1. 第一时间掌握具身智能相关的学术进展、工业落地应用;
2. 和行业大佬一起交流工作与求职相关的问题;
3. 优良的学习交流环境,能结识更多同行业的伙伴;
4. 具身智能相关工作岗位推荐,第一时间对接企业;
5. 行业机会挖掘,投资与项目对接;