Thinking in Space:多模态LLM如何感知记忆和回忆空间

点击下方卡片,关注“具身智能之心”公众号

作者 | Jihan Yang等  编辑 | 具身智能之心

本文只做学术分享,如有侵权,联系删文


>>点击进入→具身智能之心技术交流群

论文标题:Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

论文链接:https://arxiv.org/pdf/2412.14171

项目链接:https://vision-x-nyu.github.io/thinking-in-space.github.io/

作者单位:纽约大学 耶鲁大学 斯坦福大学

54f64b0c158b276ade5cddd4b08e3a10.png

写在前面&引言

人类具备通过连续视觉观察记忆空间的视觉-空间智能。那么,是否经过大规模视频数据集训练的多模态大语言模型(MLLMs)也能够从视频中实现“在空间中思考”? Thinking in Space提出了一个新颖的视频驱动视觉-空间智能基准(VSI-Bench),包含超过5000个问答对。研究发现,MLLMs表现出竞争力的——但仍低于人类水平的——视觉-空间智能。我们对模型进行探测,分析其如何以语言和视觉方式表达空间思考能力。结果表明,尽管空间推理能力是MLLMs提升基准性能的主要瓶颈,但局部世界模型和空间感知能力在这些模型中确实有所显现。值得注意的是,传统的语言推理技术(如chain-of-thought, self-consistency, tree-of-thoughts)未能提升性能,而在问答过程中明确生成认知地图则显著增强了MLLMs对空间距离的处理能力。

内容出自国内首个具身智能全栈学习社区:具身智能之心知识星球,这里包含所有你想要的。

VSI-Bench介绍

在选购家具时,我们常常会试图回忆起自己的客厅,以想象某个心仪的柜子是否合适。然而,估算距离并不容易,但即便仅仅观察一次,人类也能在脑海中重构空间,回忆房间中的物体、它们的位置及尺寸。我们生活在一个感官丰富的三维世界中,周围充满视觉信号,这些信号为我们的感知、理解和互动提供了基础。

视觉-空间智能包括感知和在脑海中操控空间关系,这需要多种能力的支持,例如关系推理以及在自我中心(egocentric)和他人中心(allocentric)视角之间的转换能力。尽管大语言模型(LLMs)在语言智能方面取得了显著进展,但视觉-空间智能的研究仍然不足。然而其在机器人技术、自动驾驶和增强/虚拟现实(AR/VR)等领域具有重要意义。

多模态大语言模型(MLLMs)结合了语言和视觉能力,在开放式对话和实际任务(如web agents)中表现出强大的思考和推理能力。为了推动视觉-空间领域的智能发展,本文提出了 VSI-Bench,这是一个基于视频的基准,涵盖近290个真实室内场景视频,包含超过5000个问答对。视频数据通过捕捉连续的时序输入,不仅与我们观察世界的方式相似,还能比静态图像提供更丰富的空间理解和推理能力。对开源和闭源模型在VSI-Bench上的评估表明,尽管模型与人类之间仍存在显著的性能差距,但MLLMs在应对视频理解、文本理解和空间推理等挑战时,已经展现出初步的视觉-空间智能。

为了分析模型行为,我们借鉴了双编码理论,该理论认为语言处理与视觉处理是独立但互为补充的。这里引导选定模型生成自解释(语言)和认知地图(视觉)。对自解释的分析表明,与视觉感知、语言智能或时间处理相比,空间推理是模型在 VSI-Bench 上表现较弱的主要原因。“认知地图”是环境内部布局的表示,通过评估认知地图,我们发现 MLLMs 在构建局部空间模型方面表现较强,但在全局模型上表现较弱。此外,传统的语言推理技术未能提升模型在该基准上的性能,但在问答过程中明确生成并使用认知地图能够显著改善模型在空间距离问题上的表现。

表达视觉-空间智能即使对人类而言也十分困难(且常常是零散的)。通过本研究,旨在鼓励学术界探索将前沿模型与视觉-空间智能相结合的方法,并为这一研究方向开辟道路、提供指引。

fe3ff9ab2669e6c737bf96638cdfd9a6.png
图1 无论是在家中、工作场所还是其他环境中,感知空间、记住其布局,并能够按需检索这些空间信息以回答问题,是视觉-空间智能的关键方面。近年来,多模态大语言模型(MLLMs)已能够理解一般视频,但面对环境视频记录时,它们能否“进行空间思考”?它们能否构建准确且隐式的“认知地图”,以回答关于空间的问题?使用 MLLMs 增强空间智能的优势和局限性是什么?

我们通过以下方法深入探讨这些问题:

  1. 为 MLLMs 提供视频数据进行观察;

  2. 构建一个视频问答(VQA)基准以评估其记忆与回忆能力;

  3. 检验 MLLMs 实际记住和理解了什么内容。

视觉-空间智能

本文讨论了视觉-空间智能的基本概念和范围,以为后续分析提供背景和框架。

术语使用本文使用“智能”(intelligence)而非“认知”(cognition),因为前者范围更广,而“空间认知”(spatial cognition)是认知心理学的一个分支。本研究中,在“空间智能”之前加上“视觉”这一前缀,因为空间智能本身可以独立于感官模式存在(例如,盲人可以通过其他感官感知空间)。鉴于本文的研究重点是视频输入,因此讨论的是视觉-空间智能。

研究范围
尽管经典的空间智能测试也包括诸如心理旋转测试(Mental Rotation Test)等纸笔任务,本文的研究重点是视觉-空间智能在现实环境中的应用,尤其是在家庭、办公室和工厂等常见场景中的表现。

bcbe54b7a054a0b325f6d720597a132a.png
图2 视觉-空间智能能力分类法。

分类法
我们基于认知心理学研究以及在第3节中对基准任务的经验,提出了可能构成视觉-空间智能的能力分类(如图2所示)。在 VSI-Bench 中,视觉感知、语言智能、时间处理和空间推理是四个核心领域。例如,一些研究表明,视觉对象处理和空间处理在神经层面上是不同的,这促使本文将“视觉感知”和“空间推理”区分为独立领域。

我们将空间推理划分为两种主要能力:关系推理和自我中心-他人中心(egocentric-allocentric)视角转换。

关系推理
关系推理是指通过距离和方向识别物体之间关系的能力。这还包括基于视觉-空间常识推断物体之间的距离。例如,了解一个标准饮料罐约12厘米高,人类可以通过视觉比例比较估算其他物体的大小。

自我中心-他人中心转换
自我中心-他人中心(egocentric-allocentric)转换涉及在自我为中心的视角(egocentric)和以环境为中心的视角(allocentric)之间切换。在本文的设定中,每一帧自我中心的视频画面都映射到他人中心的物体位置和相机轨迹。当人类观察空间时,会将自我中心的感知转化为他人中心的心理地图,从而能够从不同视角进行透视——这对于相对方向判断或路径规划等任务至关重要。

这种转换依赖于两种能力:

  1. 可视化新视角

  2. 视觉-空间工作记忆
    视觉-空间工作记忆是指存储和操控空间信息的能力,例如通过新的自我中心输入更新物体位置。

VSI-Bench 中的每一项任务都需要感知、语言和时间处理能力,以及不同程度的空间推理能力。例如,在路径规划任务中,自我中心-他人中心转换尤为重要,而在物体大小估算任务中则相对次要。这些因素为视觉-空间智能的复杂性提供了背景参考。

VSI-Bench的详细设计

VSI-Bench用于从自我中心视频中定量评估多模态大语言模型(MLLMs)的视觉-空间智能。VSI-Bench 包含超过5000个问答对,这些问答对基于288个真实视频生成。视频来源于公开的室内三维场景重建数据集(如 ScanNet、ScanNet++和 ARKitScenes)的验证集,涵盖多样化的环境,包括住宅空间、专业场所(如办公室、实验室)和工业空间(如工厂),以及多个地理区域。通过重新利用这些现有的3D重建和理解数据集,我们能够获得精确的物体级标注,这些标注不仅用于问题生成,还为研究 MLLMs 与3D重建的联系提供了可能性。

VSI-Bench 具有较高质量,经过多次迭代审查以尽量减少问题歧义并删除源数据集中可能传播的错误标注。

192bd09e308d4e8959ea5b07a9f8492f.png
图3 VSI-Bench 任务示例

注:为提高清晰度与简洁性,上述问题已稍作简化。

任务类型
VSI-Bench 包含三类共八种任务:配置类、测量估算类和时空类。

  1. 配置类任务
    包括物体计数、相对距离、相对方向和路径规划,测试模型对空间配置的理解,这些任务对人类来说较为直观(第4节详细比较了 MLLM 和人类的性能)。

  2. 测量估算类任务
    包括物体大小、房间大小和绝对距离的估算,对于任何具身智能体都具有重要意义。尽管精确预测测量值对于人类和模型都非常困难,但对距离和其他测量的更好感知直观上与更强的视觉-空间智能相关,并支撑了需要空间意识的广泛任务,例如与物体交互和导航。

  3. 时空类任务
    如出现顺序测试,评估模型对视频中所见空间的记忆能力。

请参阅图3了解 VSI-Bench 任务概览,以及图5获取数据集统计信息。

e07b6ff881caae6c0e0278aaff625080.png
图4 基准数据集整理流程

该流程首先将多样化数据集统一为标准化格式和语义空间,以实现一致的处理。问答对通过人工标注和问题模板生成。在关键阶段实施人工验证,以过滤低质量视频、标注及模糊的问答对,从而确保数据集质量。

45a264d0637c20606740a545fa768247.png
图5 基准统计信息

顶部:三大任务类别中各任务的分布情况。
底部:视频长度的统计分布。

实验结果分析

3d7b12b05580c22d96c6838cac8cd715.png
图6 性能比较

对比了启用视觉(Vision Enabled,具有视频输入)、禁用视觉(Vision Disabled,无视频输入)和随机水平(Chance Level,基于频率)的性能。

  • Enabled−Disabled 表示启用视觉与禁用视觉之间的性能差距。

  • Disabled−Chance 表示禁用视觉与随机水平之间的性能差距。

任务按 Enabled−Disabled 差距排序,以便更清晰地理解结果。

c7b6e91147f322da560f8c95e85f6b37.png
图7 MLLM 自解释示例

示例展示了 MLLM 的思考过程。从中可以看出,尽管 MLLM 在视频理解和语言推理能力方面表现出色,其空间推理能力仍处于发展阶段。

3166f11518e414e9924c53d75aca1ea2.png
图8 按错误类型的人为分析

超过70%的错误源于空间推理能力的不足。

dba70f606ce2509da9b3e26ddf65b8be.png
图9 CoT、Self-Consistency 与 Tree-of-Thought的相对改进

与基线相比,这三种常用的提示技术在本文的基准测试中平均未能取得提升,有些情况下甚至导致任务性能显著下降。这表明,仅依靠提升语言能力无法解决 VSI-Bench 中的任务。

6ddae2622c0117b293f1f9c59faf37d3.png
图10 MLLM 与 GT 的认知地图可视化对比
9e35e015b82ab90a31de83b12b4d91f9.png
图11 MLLM 预测认知地图的局部性

随着物体距离的增加,MLLM 的地图距离精度显著下降。

92b1435abb7d9e8a703fba899499d761.png
表1 VSI-Bench 的评估结果
  • 左侧:深灰色表示所有模型中的最佳结果,浅灰色表示开源模型中的最佳结果。† 表示结果基于 VSI-Bench (tiny) 子集。

  • 右侧:包括排名前3的开源模型的结果。

3392d6792a504950da3e195ad2eb50de.png
表2 Gemini-1.5 Pro 在 VideoMME 的500问子集上使用 CoT 的性能表现
45b79e6d3235b9c9eb01a8e408e57927.png
表3 结合认知地图的相对距离任务性能表现

总结和未来方向

本文通过构建 VSI-Bench 并研究多模态大语言模型(MLLMs)的表现和行为,探索模型如何感知、记忆和回忆空间。对 MLLMs 在语言和视觉层面进行空间思考的分析揭示了其现有的优势(如显著的感知、时间处理和语言能力)以及视觉-空间智能的瓶颈(如自我中心-他人中心转换和关系推理)。尽管现有的语言提示方法未能提升空间推理能力,但明确构建认知地图确实增强了 MLLMs 在空间距离推理任务中的表现。

未来的改进方向包括:

  • 任务特定的微调;

  • 针对空间推理开发自监督学习目标;

  • 为 MLLMs 设计适配视觉-空间的提示技术。

引用:

@article{yang2024think,
    title={{Thinking in Space: How Multimodal Large Language Models See, Remember and Recall Spaces}},
    author={Yang, Jihan and Yang, Shusheng and Gupta, Anjali and Han, Rilyn and Fei-Fei, Li and Xie, Saining},
    year={2024},
    journal={arXiv preprint arXiv:2412.14171},
}

【具身智能之心】技术交流群

具身智能之心是国内首个面向具身智能领域的开发者社区,聚焦大模型、视觉语言导航、VLA、机械臂抓取、双足机器人、四足机器人、感知融合、强化学习、模仿学习、规控与端到端、机器人仿真、产品开发、自动标注等多个方向,目前近60+技术交流群,欢迎加入!扫码添加小助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

44876e4bdd43987077b7b799170458cd.jpeg

【具身智能之心】知识星球

具身智能之心知识星球是国内首个具身智能开发者社区,也是最专业最大的交流平台,近1000人。主要关注具身智能相关的数据集、开源项目、具身仿真平台、大模型、视觉语言模型、强化学习、具身智能感知定位、机器臂抓取、姿态估计、策略学习、轮式+机械臂、双足机器人、四足机器人、大模型部署、端到端、规划控制等方向。星球内部为大家汇总了近40+开源项目近60+具身智能相关数据集行业主流具身仿真平台、强化学习全栈学习路线、具身智能感知学习路线、具身智能交互学习路线、视觉语言导航学习路线、触觉感知学习路线、多模态大模型学理解学习路线、多模态大模型学生成学习路线、大模型与机器人应用、机械臂抓取位姿估计学习路线、机械臂的策略学习路线、双足与四足机器人开源方案、具身智能与大模型部署等方向,涉及当前具身所有主流方向。

扫码加入星球,享受以下专有服务:

1. 第一时间掌握具身智能相关的学术进展、工业落地应用;
2. 和行业大佬一起交流工作与求职相关的问题;
3. 优良的学习交流环境,能结识更多同行业的伙伴;
4. 具身智能相关工作岗位推荐,第一时间对接企业;
5. 行业机会挖掘,投资与项目对接;

59277b75f0fec7b565cfb5b4e184af8e.png

“华为杯”第十八届中国研究生数学建模竞赛是一项全国性赛事,致力于提升研究生的数学建模与创新实践能力。数学建模是将实际问题转化为数学模型,并运用数学方法求解以解决实际问题的科学方法。该竞赛为参赛者提供了展示学术水平团队协作精神的平台。 论文模板通常包含以下内容:封面需涵盖比赛名称、学校参赛队号、队员姓名以及“华为杯”中国研究生创新实践系列大赛的标志;摘要部分应简洁明了地概括研究工作,包括研究问题、方法、主要结果结论,使读者无需阅读全文即可了解核心内容;目录则列出各章节标题,便于读者快速查找;问题重述部分需详细重新阐述比赛中的实际问题,涵盖背景、原因及重要性;问题分析部分要深入探讨每个问题的内在联系与解决思路,分析各个子问题的特点、难点及可能的解决方案;模型假设与符号说明部分需列出合理假设以简化问题,并清晰定义模型中的变量符号;模型建立与求解部分是核心,详细阐述将实际问题转化为数学模型的过程,以及采用的数学工具求解步骤;结果验证与讨论部分展示模型求解结果,评估模型的有效性局限性,并对结果进行解释;结论部分总结研究工作,强调模型的意义对未来研究的建议;参考文献部分列出引用文献,遵循规范格式。 在准备竞赛论文时,参赛者需注重逻辑清晰、论述严谨,确保模型科学实用。良好的团队协作时间管理也是成功的关键。通过竞赛,研究生们不仅锻炼了数学应用能力,还提升了团队合作、问题解决科研写作能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值