RilynHan 耶鲁大学
LiFei-Fei 斯坦福大学
摘要
人类拥有视觉空间智能,可以通过连续的视觉观察来记住空间。然而,在百万级视频数据集上训练的多模态大型语言模型(MLLM)是否也可以从视频中“进行空间思考”?我们提出了一种新颖的基于视频的视觉空间智能基准(VSI-Bench),包含超过 5,000 个问答对,并发现 MLLM 表现出有竞争力的(尽管非人类的)视觉空间智能。
我们探索模型如何从语言和视觉上表达它们在空间中的思维方式,并发现虽然空间推理能力仍然是 MLLM 达到更高基准性能的主要瓶颈,但局部世界模型和空间意识确实出现在这些模型中。值得注意的是,流行的语言推理技术(例如,思路链、自洽性、思路树)无法提高性能,而在问答过程中明确生成认知图可以增强 MLLM 的空间距离能力。
1.简介
在购买家具时,我们经常会回忆起我们的客厅,想象是否适合需要的橱柜。估计距离很困难,但即使是一次观看后,人类也可以在脑海中重建空间,回忆房间中的物体、它们的位置和大小。我们生活在一个感官丰富的 3D 世界中,视觉信号围绕着我们,让我们能够感知、理解并与之互动。
视觉空间智能需要感知和精神上操纵空间关系[26];它需要无数的能力,包括关系推理以及在自我中心和非中心视角之间转换的能力(第 2 节)。虽然大型语言模型 (LLMs) [3,6,9,35,59,65,66,75,79,80,85,100] 具有先进的语言智能,但视觉空间智能仍然不足。尽管它与机器人技术 [7,8,21,62]、自动驾驶 [77] 和 AR/VR 相关,但仍在探索中[12,27,53]。
多模态大语言模型(MLLM)[1,4,15,33,41,47,47,76]集成了语言和视觉,在开放式对话和网络代理等实际任务中表现出强大的思考和推理能力[ 21、28、32、34]。为了在视觉空间领域推进这种智能,我们引入了 VSI-Bench,这是一种基于视频的基准测试,包含近 290 个真实室内场景视频中的 5,000 多个问答对(第 3 节)。视频数据通过捕获连续的时间输入,与我们观察世界的方式相似,并且比静态图像能够实现更丰富的空间理解和推理。在 VSI-Bench 上评估开源和闭源模型表明,尽管模型和人类之间存在很大的性能差距,但 MLLM 仍表现出新兴的视觉空间智能,尽管面临视频理解、文本理解和空间推理的挑战(第 4 节)。
为了分析模型行为,并受到双编码理论[18]的启发,该理论假设语言和视觉处理是不同但互补的,我们提示选择模型进行自我解释(语言)和认知图(视觉)。分析自我解释表明,与视觉感知、语言智能或时间处理相比,空间推理是 VSI-Bench 表现不佳的主要因素(第 5 节)。 “认知地图”代表环境的内部布局 [60, 78],使我们能够评估 MLLM 的隐式空间世界模型,并发现 MLLM 构建了强大的局部模型,但全局模型较弱(第 6 节)。此外,标准语言推理技术无法提高我们基准测试的性能。然而,显式生成和使用认知图可以改善空间距离问题的回答。
即使对于人类来说,表达视觉空间智能也很困难(而且通常是零碎的)[26]。通过这项工作,我们的目标是鼓励社区探索具有视觉空间智能的基础前沿模型,并为这个方向的发展和壮大铺平道路。
2. 视觉空间智能
我们讨论准备工作并确定视觉空间智能的范围,以便为后续分析提供背景和框架。
术语使用
我们使用“智能”而不是“认知”,因为它更广泛,并且“空间认知”是认知心理学的一个分支 [81]。我们在工作中将空间智能前缀为“视觉”,因为空间智能的存在与感觉模态无关(例如,盲人可以通过其他感官感知空间)[26]。鉴于我们专注于视频输入,我们讨论视觉空间智能。
调查范围
虽然经典的空间智能测试也包括纸笔任务,如心理旋转测试 [72],但我们的重点是视觉空间智能,因为它适用于现实世界环境,特别是在家庭、办公室和工厂等公共空间。
分类法
我们根据认知心理学 [11、26、55、60] 和人类在第 3 节中对基准任务的经验,对视觉空间智能可能需要的能力进行了分类(图 2)。视觉感知、语言智能、时间处理和空间推理是 VSI-Bench 所需的四个领域。例如,[11] 表明视觉对象和空间处理在神经上是不同的,这促使“视觉感知”和“空间推理”成为独立的领域。我们将空间推理分为两大类能力:关系推理和自我中心-他心转换。关系推理是通过距离和方向识别物体之间关系的能力。它还包括通过依赖关于其他物体大小的视觉空间常识来推理物体之间的距离。例如,知道一个标准的饮料罐大约 12 厘米高,人类可以通过比较视觉比例来估计其他物体的大小。自我中心-他心转换涉及在以自我为中心(自我中心)的视角和以环境为中心(他心)的视角之间转换。在我们的设置中,每个以自我为中心的视频帧都映射到他心的物体位置和相机轨迹。当人类观察一个空间时,他们会将以自我为中心的感知转换成以他心为中心的思维地图,从而能够从各个角度进行视角选择——这对于相对方向或路线规划等任务至关重要。这种转变依赖于可视化新视角和视觉空间工作记忆 [2],即保存和操纵空间信息的能力,例如通过从新的以自我为中心的输入更新物体位置 [20, 54]。VSI-Bench 中的每个任务都需要感知、语言和时间能力以及不同程度的空间推理能力。例如,对于路线规划等任务而言,以自我为中心的-他心转换比物体大小估计更重要。这些因素为视觉空间智能的复杂性提供了一些背景。
3.VSI-基准
3.1.概述
我们引入了 VSI-Bench,以定量评估以自我为中心的视频中 MLLM 的视觉空间智能。VSI-Bench 包含来自 288 个真实视频的 5,000 多个问答对。这些视频来自公共室内 3D 场景重建数据集 ScanNet [19]、ScanNet++ [94] 和 ARKitScenes [5] 的验证集,代表了不同的环境——包括住宅空间、专业环境(例如办公室、实验室)和工业空间(例如工厂)——以及多个地理区域。重新利用这些现有的 3D 重建和理解数据集提供了准确的对象级注释,我们在问题生成中使用这些注释,并可以用于未来研究 MLLM 和 3D 重建之间的联系。
VSI-Bench 质量很高,经过反复审查,以尽量减少问题的歧义并删除从源数据集传播的错误注释。 VSI-Bench 包括三种类型的八个任务:配置、测量估计和时空。
配置任务(物体计数、相对距离、相对方向、路线规划)测试模型对空间配置的理解,对人类来说更直观(请参阅第 4 节,了解 MLLM 与人类表现的比较)。测量估计(物体大小、房间大小和绝对距离)对任何具身代理都很有价值。虽然准确预测测量值非常困难,但对于人类和模型来说,更好的距离感和其他测量值直观地与更好的视觉空间智能相关,并支持需要空间意识的广泛任务,如与物体的交互和导航。时空任务(如外观顺序)测试模型对视频中看到的空间的记忆。有关 VSI-Bench 任务的概述,请参见图 3,有关数据集统计信息,请参见图 5。
3.2.基准搭建
我们开发了一个复杂的基准构建管道,以有效地大规模生成高质量的问答 (QA) 对,如图 4 所示。
数据收集和统一
我们通过将各种数据集标准化为统一的元信息结构来开始我们的数据集构建,确保与数据集无关的 QA 对生成。我们的基准汇总了现有的 3D 室内场景理解和重建数据集:ScanNet [19]、ScanNet++ [94] 和 ARKitScenes [5]。
这些数据集提供了能够进行空间重建的高保真视频扫描,确保 MLLM 仅使用视频输入就可以回答空间级问题。此外,它们的对象级 3D 注释促进了我们的问题生成。我们将数据集解析为统一的元信息格式,包括对象类别、边界框、视频规格(分辨率和帧速率)等。
问答生成
QA 对主要使用元信息和问题模板自动注释;路线规划任务是人工注释的。我们精心设计和完善了每个任务的问题模板,并为人工注释者提供了指导。有关更详细的设计,请参阅附录 B.1。
人机交互质量审查
尽管有人工注释的数据源和精心设计的 QA 生成方法,但某些歧义和错误不可避免地持续存在,这主要是由于源数据集中固有的注释错误。我们实施了跨越基准构建的人机交互验证协议。这种迭代质量保证是双向的:当评估者标记出不明确或错误的问题时,我们会追踪错误源并删除有问题的数据样本或相应地修改元信息、问题模板或 QA 生成规则,以纠正源自相同问题的其他错误问题来源。在每个人工审核周期之后,我们都会更新和迭代基准,直到它满足我们的质量标准。
4. VSI-Bench 评估
4.1. 评估设置
基准模型
我们全面评估了不同模型系列中的 15 个支持视频的 MLLM,涵盖了各种参数尺度和训练方案。对于专有模型,我们考虑 Gemini-1.5[76] 和 GPT-4o[33]。对于开源模型,我们评估了来自 InternVL2[14]、ViLA[44]、LongViLA[88]、LongVA[98]、LLaVA-OneVision[39] 和 LLaVA-NeXT-Video[99] 的模型。所有评估均在零样本设置下进行,并使用每个模型的默认提示。为了确保可重复性,我们对所有模型使用贪婪解码。
度量设计
根据真实答案是口头的还是数字的,我们的任务适合多项选择答案 (MCA) 或数值答案 (NA) 格式(见图 3)。对于 MCA 任务,我们遵循标准做法 [24,30,96],使用基于精确匹配(可能存在模糊匹配)的准确度 (ACC) 作为主要度量。对于 NA 任务,模型预测连续值,通过精确匹配获得的准确度无法捕捉模型预测和真实答案之间的接近程度。因此,我们引入一个新的指标,即平均相对准确度(MRA),灵感来自以前的研究[22,45,71]。具体来说,对于一个N问题,给定一个模型的预测ˆy、基本事实和置信阈值θ,相对准确度是通过考虑ˆy是否正确来计算的,相对误差率定义为|ˆy−y|/y,小于1−θ。单置信阈值准确度仅考虑窄范围内的相对误差,MRA对置信阈值范围内的相对准确度进行平均C={0.5,0.55,…,0.95}:
M
R
A
=
1
10
∑
θ
∈
C
1
(
y
^
−
y
y
)
<
1
−
θ
.
(
1
)
MRA=\frac{1}{10}\sum_{\theta \in C} 1 \bigg( \frac{\hat y - y}{y} \bigg) < 1-\theta . (1)
MRA=101θ∈C∑1(yy^−y)<1−θ.(1)
MRA 提供了一种更可靠、更具辨别力的测量方法,用于计算数值预测和真实值之间的相似性。
机会水平基线
我们提供两个基线:
• 机会水平(随机)是 MCA 任务的随机选择准确率(不适用于 NA 任务)。
• 机会水平(频率)表示 MLLM 通过始终选择每个任务的最常见答案而实现的最高性能。这可以识别可能由固有的长尾答案或不平衡的多项选择分布导致的性能提升
人类水平的表现
我们随机抽取了 400 个问题(每个任务 50 个)的子集,我们将其称为 VSI-Bench (tiny)。人类评估者独立回答每个问题,并使用上述指标评估他们的表现。为了进行比较,我们还报告了 Gemini-1.5 Pro 在 VSI-Bench (tiny) 上的表现。有关评估设置的详细信息,请参阅附录 C。
4.2.主要结果
图 1 显示了 VSI-Bench 上的整体模型性能。我们的主要观察结果如下:
人性化的性能
毫不奇怪,人类评估者在我们的基准测试中达到了 79% 的平均准确率,比最佳模型高出 33%。值得注意的是,人类在配置和时空任务上的表现非常高,范围从 94% 到 100%,这表明人类的直觉。相比之下,在需要精确估计绝对距离或大小的三个测量任务上,人类与最好的 MLLM 之间的性能差距要小得多,这表明 MLLM 在需要定量估计的任务中可能具有相对优势。专有 MLLM
尽管与人类的性能差距很大,但领先的专有模型 Gemini1.5 Pro 仍提供了具有竞争力的结果。它大大超过了机会水平基线,并在绝对距离和房间大小估计等任务中设法接近人类水平。值得注意的是,虽然人类评估者在理解空间物理世界方面拥有多年的经验,但 MLLM 只接受过互联网视频等 2D 数字数据的训练。
开源 MLLM
LLaVA-NeXT-Video-72B 和 LLaVA-OneVision-72B 等顶级开源模型与闭源模型相比表现出极具竞争力的性能,仅落后领先的 Gemini-1.5 Pro 4% 至 5%。然而,大多数开源模型 (7/12) 的表现都低于机会水平基线,表明其视觉空间智能存在显着局限性。
盲评估
我们使用六个最强模型(3 个开源模型和 3 个闭源模型)的平均值,将 MLLM 的性能与“机会水平(频率)”和“视觉禁用”(盲)结果进行比较。如图 6 所示,“启用-禁用”的持续改进和“禁用-机会”的普遍退化表明,视频对于我们的 VSI-Bench 至关重要且有益,盲模型的表现低于机会水平。同时,无论是否启用视觉,MLLM 都难以在绝对距离估计、路线规划和相对方向任务中超越机会水平,这突显了这些任务的难度。请注意,在物体大小方面,“视觉禁用”模型已经明显优于机会水平,这可能是由于在语言模型训练期间学习到的常识知识。
5. MLLM 如何在空间中进行语言思考
为了更好地理解模型成功或失败的时间和原因,并阐明它们所拥有的视觉空间智能的各个方面,我们研究了 MLLM 在语言上和在第二节中如何在视觉上思考空间。 [6]. 我们首先提示 VSI-Bench 中表现最好的 MLLM Gemini-1.5 Pro [76],用语言阐明其内部推理。
5.1.通过自我解释进行探究
自我解释是一种与传统模型解释(如 LIME 显着图 [69])同等的流行方法,用于理解 LLM 生成的响应 [25,31,51],并广泛用于分析语言模型行为 [64] ,96]。我们随机抽取 163 个错误答案的子集,提示 MLLM 为预测答案提供解释,并仔细手工检查它们。案例研究。图 7 给出了成功和错误情况下的自我解释。在这两个例子中,当在空间中思考时,MLLM 表现出了先进的视频理解能力。其时间戳描述的令人印象深刻的准确性证明了这一点。该模型还形成了正确的逐步推理过程,概述了相对方向任务的“定位自己”、“找到洗碗机”和“可视化象限”等步骤。此外,全局坐标系的构建(图7,左)表明MLLM可能拥有或构建隐式世界模型。 MLLM 没有使用孤立的帧、短片或随机猜测,而是使用全局空间上下文和推理来正确推断。
在不正确的示例中(图 7,右),我们可以识别错误的视觉空间能力,例如自我中心-非中心转换和关系推理,如图 2 所示。在视频中,摄像机向右平移,将视图从床边到墙壁和窗户。该模型遵循这种以自我为中心的观点,回应“要面对窗户所在的墙壁,你必须向右转”,而不是创建一个反映从门到床的路线意味着向左转的现实的非中心视图。
错误分析
为了量化和识别我们基准测试中表现最佳的 MLL 的主要瓶颈,我们在 VSI-Bench(tiny)上分析其错误,将其分为四种不同的类型,这些类型源自我们概述的视觉空间能力(图 2)和检查时清晰的四种错误分类:
- 视觉感知错误,源于无法识别的对象或错误分类的对象类别;
- 语言智能错误,由逻辑、数学推理或语言理解缺陷引起;
- 关系推理错误包括空间关系推理中的错误,即距离、方向和大小;
- 自我中心—他心转换错误,源于不正确的他心空间布局或不恰当的观点采择。如图 8 所示,大约 71% 的错误归因于空间推理(如图 2 中本体论所设想的),这表明:
空间推理是 VSI-Bench 上 MLLM 性能的主要瓶颈。
进一步的分析和案例研究参见附录 E.2。
5.2. CoT 方法在视觉空间任务中的局限性
提示技术提高了跨不同任务的大型模型的推理和解决问题的能力[32,34,73,82]。他们的成功激励我们研究这些语言提示方法是否也可以提高 VSI-Bench 中 MLLM 的视觉空间能力。我们研究了三种流行的提示技术(更多详细信息,请参阅附录 B.3):
- 零射击思想链(CoT)。继[37, 86]之后,我们在提示中添加“让我们一步一步思考”。
- 与 CoT 的自我一致性。我们遵循[84],将 MLLM 的温度设置为 1.0,以鼓励多样化推理,然后将五次运行中的多数共识(采用零样本 CoT)作为最终预测。
- 思想树(ToT)。遵循[92]中的“创意写作”实践,我们将推理分为计划生成和答案预测。 MLLM 首先起草并选择一个计划,然后生成三个候选答案并选择最有信心的一个作为预测。
如图 9 所示,令人惊讶的是,所有三种语言推理技术都会导致 VSI-Bench 上的性能下降。Zero-ShotCoT 和 ToT 将平均性能降低了约 4%,而自我一致性虽然略有改善,但仍比无提示基线低 1.1%。外观顺序和绝对距离估计任务的单方面改进很容易通过其显著的语言智能百分比来解释(见图 8)。相比之下,房间大小和物体大小任务遭受了 8% 到 21% 的大幅下降,这表明鼓励模型更多地思考不仅不可靠,而且完全有害。同时,如表 2 所示,ZeroShotCoT 在一般方面实现了 1.6% 的改进videounderstandingbenchmarkVideoMME[24]。因此,我们的结果表明:
语言提示技术虽然在语言推理和一般视觉任务中有效,但对空间推理是有害的。
6. MLLM 如何在空间中进行视觉思考
由于人类在进行空间推理时会下意识地建立空间的心理表征 [58, 78],因此我们探索 MLLM 如何记住空间。
6.1.通过认知地图进行探索
我们提示 MLLM 使用认知地图来表达它们所见空间的内部表征,认知地图是一种在设定环境中记忆物体的成熟框架 [60, 78]。我们提示性能最佳的 MLLM Gemini-1.5 Pro 根据视频输入预测 10 × 10 网格内物体的中心位置(参见图 11b 了解网格大小消融情况,参见附录 B.4 了解提示)。我们在图 10 中展示了生成的认知地图的示例。
为了定量评估这些认知地图,我们评估每个地图内所有物体对之间的欧几里得距离。如果两个物体之间的距离(在网格上)与地面真实认知地图中的距离偏差不超过一个网格单位,我们认为该距离是正确的。如图 11 所示,我们将地图距离分为八个不同的箱进行分析。有趣的是,我们发现 MLLM 在定位其认知地图中的相邻物体时实现了惊人的 64% 的准确率,表明其具有强大的局部空间意识。然而,随着两个物体之间的距离增加,这种准确性会显著下降,这表明:
当记住空间时,MLLM 根据给定的视频在脑海中形成一系列局部世界模型,而不是统一的全局模型。
这一观察结果与从离散视频帧形成全局空间表示的挑战相一致,这对于 MLLM 来说本质上是困难的。虽然这项任务对于人类来说也并非微不足道,但他们很可能可以更准确地构建这种全球空间表示。
6.2.通过认知地图更好的距离推理
鉴于 MLLM 在记忆空间中的局部意识(见图 10 和图 11)以及心理意象对人类如何在空间中思考的重要性,我们研究生成和使用认知地图是否可以帮助 MLLM根据 VSI-Bench 相对距离任务进行空间推理。这测试了局部距离意识是否通过认知图转移而出现,以改善距离回忆和推理。
我们提示 Gemini-1.5 Pro 首先根据给定的视频和问题生成认知地图,然后使用预测地图回答问题。如表 3a 所示,我们发现使用心理意象可将 MLLM 的相对距离准确度提高 10%。地面实况认知地图比基线高出 20% 到 32%,这强调了构建场景准确心理地图的重要性,这可以强制实现全局一致的拓扑,但也表明这种心理意象只是难题的一部分,尽管是至关重要的一部分。这些结果表明,构建心理空间世界模型或认知地图是 MLLM 解决视觉空间推理的一项有价值的前置任务或有前途的解决方案。
7. 相关工作
除了第二节的视觉空间智能之外。 [2]、我们进一步在以下两个相关领域开展工作:
具有视觉空间意识的 MLLM
建立在 LLMs [3, 9, 65, 66, 75, 79, 80] 强大的语言和推理能力以及现代视觉编码器 [29, 63, 67] 的特征提取能力的基础上,MLLM,特别是视觉 MLLM,表现出前所未有的视觉理解能力 [33,39,76,83,88,99],发展世界模型[48]和具体主体[17,21,36,57]的方向。然而,将 MLLM 扎根于现实世界对模型的视觉空间智能提出了重大挑战,激发了最近的努力[10,13,16,40,46,91,102]。与之前的工作主要侧重于通过 2D 图像 [68,74,90] 或仅通过语言 [56,70,87,87,89] 理解空间信息不同,我们的工作使用真实世界的视频评估模型的视觉空间智能,它更接近地反映了人类对世界的理解和实体代理的应用场景。
视频上的 MLLM 基准测试
随着 MLLM 在感知、推理和多学科任务中在静态图像上显示出令人印象深刻的性能 [38,50,95,96],人们对评估 MLLM 的视频理解能力越来越感兴趣 [23,24,42,43,49 、52、53、61、93]。例如,Video-MME [24] 综合评估了各种视频相关任务(包括识别和感知)的 MLLM。 EgoSchema [53] 和 OpenEQA [62] 使用以自我为中心的视频评估 MLLM 的理解能力。尽管它们很重要,但大多数先前的工作都侧重于内容级别的理解 [24,42,53,61],这主要作为 2D 图像理解的时间扩展,而不考虑 3D 空间。我们的工作超越了之前的基准,建立了一个测试平台,评估模型基于 3D 视频的视觉空间智能,使用视频作为理解现实世界的界面。
8. 讨论和未来的工作
我们通过构建 VSI-Bench 并研究 MLLM 在其上的性能和行为来研究模型如何看待、记住和回忆空间。我们对 MLLM 如何在语言和视觉上思考空间的分析确定了现有优势(例如,突出的感知、时间和语言能力)和视觉空间智能的瓶颈(例如,自我中心-非中心转换和关系推理)。虽然流行的语言提示方法无法改善空间推理,但构建显式认知图确实增强了 MLLM 的空间距离推理。未来的改进途径包括针对特定任务的微调、开发空间推理的自我监督学习目标或针对 MLLM 的视觉空间定制提示技术。
致谢。我们感谢 Ellis Brown、Ryan Inkook Chun、Youming Deng、Oscar Michel、Srivats Poddar、Xichen Pan、Austin Wang、Gavin Yang 和 Boyang Cheng 作为人类注释者和评估者做出的贡献。我们还要感谢 Fred Lu 校对我们的手稿。我们还感谢 Chen Feng、Richard Tucker、Noah Snavely、Leo Guibas 和 Rob Fergus 的有益讨论和反馈。这项工作主要得到了 Open Path AI 基金会、Google TPU Research Cloud (TRC) 计划和 Google Cloud Research Credits 计划 (GCP19980904) 的支持。 S.X.感谢 OpenAI 研究人员访问计划和亚马逊研究奖的支持。
参考文献
[1]Jean-BaptisteAlayrac,JeffDonahue,PaulineLuc,An-toineMiech,IainBarr,YanaHasson,KarelLenc,ArthurMensch,KatherineMillican,MalcolmReynolds,etal.Flamingo:avisuallanguagemodelforfew-shotlearning.NeurIPS,2022.2
[2]AlanBaddeley.Workingmemory.Science,255(5044):556–559,1992.2
[3]JinzeBai,ShuaiBai,YunfeiChu,ZeyuCui,KaiDang,XiaodongDeng,YangFan,WenbinGe,YuHan,FeiHuang,etal.Qwentechnicalreport.arXivpreprintarXiv:2309.16609,2023.2,8
[4]JinzeBai,ShuaiBai,ShushengYang,ShijieWang,SinanTan,PengWang,JunyangLin,ChangZhou,andJingrenZhou.Qwen-vl:Afrontierlargevision-languagemodelwithversatileabilities.arXivpreprintarXiv:2308.12966,2023.2
[5]GiladBaruch,ZhuoyuanChen,AfshinDehghan,TalDimry,YuriFeigin,PeterFu,ThomasGebauer,BrandonJoffe,DanielKurz,ArikSchwartz,andEladShulman.ARKitscenes-adiversereal-worlddatasetfor3dindoorsceneunderstandingusingmobileRGB-ddata.InNeurIPS,2021.3,13
[6]GašperBeguš,MaksymilianDa˛bkowski,andRyanRhodes.Largelinguisticmodels:Analyzingtheoreticallinguisticabilitiesofllms.arXivpreprintarXiv:2305.00948,2023.
2
[7]AnthonyBrohan,NoahBrown,JusticeCarbajal,YevgenChebotar,XiChen,KrzysztofChoromanski,TianliDing,DannyDriess,AvinavaDubey,ChelseaFinn,etal.Rt-2:Vision-language-actionmodelstransferwebknowledgetoroboticcontrol.InCoRL,2023.2
[8]AnthonyBrohan,NoahBrown,JusticeCarbajal,Yev-genChebotar,JosephDabis,ChelseaFinn,KeerthanaGopalakrishnan,KarolHausman,AlexHerzog,JasmineHsu,etal.Rt-1:Roboticstransformerforreal-worldcon-trolatscale.InRSS,2023.2
[9]TomBrown,BenjaminMann,NickRyder,MelanieSub-biah,JaredDKaplan,PrafullaDhariwal,ArvindNeelakan-tan,PranavShyam,GirishSastry,AmandaAskell,Sand-hiniAgarwal,ArielHerbert-Voss,GretchenKrueger,TomHenighan,RewonChild,AdityaRamesh,DanielZiegler,JeffreyWu,ClemensWinter,ChrisHesse,MarkChen,EricSigler,MateuszLitwin,ScottGray,BenjaminChess,JackClark,ChristopherBerner,SamMcCandlish,AlecRad-ford,IlyaSutskever,andDarioAmodei.Languagemodelsarefew-shotlearners.NeurIPS,2020.2,8
[10]WenxiaoCai,YaroslavPonomarenko,JianhaoYuan,Xi-aoqiLi,WankouYang,HaoDong,andBoZhao.Spa-tialbot:Precisespatialunderstandingwithvisionlanguagemodels.arXivpreprintarXiv:2406.13642,2024.8
[11]ChristopherFChabris,ThomasEJerde,AnitaWWoolley,MargaretEGerbasi,JonathonPSchuldt,SeanLBennett,JRichardHackman,andStephenMKosslyn.Spatialandobjectvisualizationcognitivestyles:Validationstudiesin3800individuals.Groupbraintechnicalreport,2:1–20,2006.2
[12]KeshigeyanChandrasegaran,AgrimGupta,LeaM.Hadzic,TaranKota,JimmingHe,CristobalEyzaguirre,ZaneDu-rante,ManlingLi,JiajunWu,andFei-FeiLi.Hourvideo:1-hourvideo-languageunderstanding.InNeurIPS,2024.2
[13]BoyuanChen,ZhuoXu,SeanKirmani,BrainIchter,DorsaSadigh,LeonidasGuibas,andFeiXia.Spatialvlm:Endow-ingvision-languagemodelswithspatialreasoningcapabil-ities.InCVPR,2024.8
[14]ZheChen,WeiyunWang,HaoTian,ShenglongYe,Zhang-weiGao,ErfeiCui,WenwenTong,KongzhiHu,JiapengLuo,ZhengMa,etal.Howfararewetogpt-4v?clos-ingthegaptocommercialmultimodalmodelswithopen-sourcesuites.arXivpreprintarXiv:2404.16821,2024.4
[15]ZheChen,JiannanWu,WenhaiWang,WeijieSu,GuoChen,SenXing,MuyanZhong,QinglongZhang,XizhouZhu,LeweiLu,etal.Internvl:Scalingupvisionfoundationmodelsandaligningforgenericvisual-linguistictasks.InCVPR,2024.2
[16]An-ChiehCheng,HongxuYin,YangFu,QiushanGuo,RuihanYang,JanKautz,XiaolongWang,andSifeiLiu.Spatialrgpt:Groundedspatialreasoninginvision-languagemodels.InNeurIPS,2024.8
[17]JunmoCho,JaesikYoon,andSungjinAhn.Spatially-awaretransformersforembodiedagents.InICLR,2023.8
18]JamesM.ClarkandAllanPaivio.Dualcodingtheoryandeducation.EducationalPsychologyReview,3(3):149–210,1991.2
[19]AngelaDai,AngelXChang,ManolisSavva,MaciejHal-ber,ThomasFunkhouser,andMatthiasNießner.Scannet:Richly-annotated3dreconstructionsofindoorscenes.InCVPR,2017.3,13
[20]MiltonJ.Dehn.WorkingMemoryandAcademicLearning:AssessmentandIntervention.JohnWiley&Sons,2011.3
[21]DannyDriess,FeiXia,MehdiSMSajjadi,CoreyLynch,AakankshaChowdhery,BrianIchter,AyzaanWahid,JonathanTompson,QuanVuong,TianheYu,etal.Palm-e:Anembodiedmultimodallanguagemodel.InICML,2023.2,8
[22]MarkEveringham,LucVanGool,ChristopherKIWilliams,JohnWinn,andAndrewZisserman.Thepascalvisualobjectclasses(voc)challenge.IJCV,2010.4
[23]XinyuFang,KangruiMao,HaodongDuan,XiangyuZhao,YiningLi,DahuaLin,andKaiChen.Mmbench-video:Along-formmulti-shotbenchmarkforholisticvideounder-standing.InNeurIPS,2024.8
[24]ChaoyouFu,YuhanDai,YondongLuo,LeiLi,ShuhuaiRen,RenruiZhang,ZihanWang,ChenyuZhou,YunhangShen,MengdanZhang,etal.Video-mme:Thefirst-evercomprehensiveevaluationbenchmarkofmulti-modalllmsinvideoanalysis.arXivpreprintarXiv:2405.21075,2024.4,7,8
[25]HaoyuGao,Ting-EnLin,HangyuLi,MinYang,YuchuanWu,WentaoMa,FeiHuang,andYongbinLi.Self-explanationpromptingimprovesdialogueunderstandinginlargelanguagemodels.InCOLING,2024.6
[26]HowardGardner.FramesofMind:TheTheoryofMulti-pleIntelligences.BasicBooks,tenth-anniversaryedition,secondpaperbackeditionedition,1983.2
[27]KristenGrauman,AndrewWestbury,EugeneByrne,ZacharyChavis,AntoninoFurnari,RohitGirdhar,JacksonHamburger,HaoJiang,MiaoLiu,XingyuLiu,etal.Ego4d:Aroundtheworldin3,000hoursofegocentricvideo.InCVPR,2022.2
[28]IzzeddinGur,HirokiFuruta,AustinHuang,MustafaSaf-dari,YutakaMatsuo,DouglasEck,andAleksandraFaust.Areal-worldwebagentwithplanning,longcontextunder-standing,andprogramsynthesis.InICLR,2024.2
[29]KaimingHe,XinleiChen,SainingXie,YanghaoLi,PiotrDollár,andRossGirshick.Maskedautoencodersarescal-ablevisionlearners.InCVPR,2022.8
[30]DanHendrycks,CollinBurns,StevenBasart,AndyZou,MantasMazeika,DawnSong,andJacobSteinhardt.Mea-suringmassivemultitasklanguageunderstanding.InICLR,2021.4
[31]ShiyuanHuang,SiddarthMamidanna,ShreedharJangam,YilunZhou,andLeilaniHGilpin.Canlargelanguagemodelsexplainthemselves?astudyofllm-generatedself-explanations.arXivpreprintarXiv:2310.11207,2023.6
[32]WenlongHuang,PieterAbbeel,DeepakPathak,andIgorMordatch.Languagemodelsaszero-shotplanners:Ex-tractingactionableknowledgeforembodiedagents.InICML,2022.2,7
33]AaronHurst,AdamLerer,AdamPGoucher,AdamPerel-man,AdityaRamesh,AidanClark,AJOstrow,AkilaWeli-hinda,AlanHayes,AlecRadford,etal.Gpt-4osystemcard.arXivpreprintarXiv:2410.21276,2024.2,4,8
[34]CarlosEJimenez,JohnYang,AlexanderWettig,ShunyuYao,KexinPei,OfirPress,andKarthikRNarasimhan.SWE-bench:Canlanguagemodelsresolvereal-worldgithubissues?InICLR,2024.2,7
[35]NoraKassner,OyvindTafjord,AshishSabharwal,KyleRichardson,HinrichSchütze,andPeterClark.Languagemodelswithrationality.InEMNLP,2023.2
[36]MooJinKim,KarlPertsch,SiddharthKaramcheti,TedXiao,AshwinBalakrishna,SurajNair,RafaelRafailov,EthanFoster,GraceLam,PannagSanketi,etal.Openvla:Anopen-sourcevision-language-actionmodel.InCoRL,2024.8
[37]TakeshiKojima,ShixiangShaneGu,MachelReid,YutakaMatsuo,andYusukeIwasawa.Largelanguagemodelsarezero-shotreasoners.InNeurIPS,2022.7,15
[38]BohaoLi,YuyingGe,YixiaoGe,GuangzhiWang,RuiWang,RuimaoZhang,andYingShan.Seed-bench:Bench-markingmultimodallargelanguagemodels.InCVPR,2024.8
[39]BoLi,YuanhanZhang,DongGuo,RenruiZhang,FengLi,HaoZhang,KaichenZhang,YanweiLi,ZiweiLiu,andChunyuanLi.Llava-onevision:Easyvisualtasktransfer.arXivpreprintarXiv:2408.03326,2024.4,8
[40]ChengzuLi,CaiqiZhang,HanZhou,NigelCollier,AnnaKorhonen,andIvanVuli´c.Topviewrs:Vision-languagemodelsastop-viewspatialreasoners.arXivpreprintarXiv:2406.02537,2024.8
[41]JunnanLi,DongxuLi,SilvioSavarese,andStevenHoi.Blip-2:Bootstrappinglanguage-imagepre-trainingwithfrozenimageencodersandlargelanguagemodels.InICML,2023.2
[42]KunchangLi,YaliWang,YinanHe,YizhuoLi,YiWang,YiLiu,ZunWang,JilanXu,GuoChen,PingLuo,etal.Mvbench:Acomprehensivemulti-modalvideounder-standingbenchmark.InCVPR,2024.8
[43]ShichengLi,LeiLi,ShuhuaiRen,YuanxinLiu,YiLiu,RundongGao,XuSun,andLuHou.Vitatecs:Adiag-nosticdatasetfortemporalconceptunderstandingofvideo-languagemodels.arXivpreprintarXiv:2311.17404,2023.
8
[44]JiLin,HongxuYin,WeiPing,PavloMolchanov,Moham-madShoeybi,andSongHan.Vila:Onpre-trainingforvi-suallanguagemodels.InCVPR,2024.4
[45]Tsung-YiLin,MichaelMaire,SergeBelongie,JamesHays,PietroPerona,DevaRamanan,PiotrDollár,andCLawrenceZitnick.Microsoftcoco:Commonobjectsincontext.InECCV,2014.4
[46]BenlinLiu,YuhaoDong,YiqinWang,YongmingRao,Yan-songTang,Wei-ChiuMa,andRanjayKrishna.Coarsecorrespondenceelicit3dspacetimeunderstandinginmul-timodallanguagemodel.arXivpreprintarXiv:2408.00754,2024.8
[47]HaotianLiu,ChunyuanLi,QingyangWu,andYongJaeLee.Visualinstructiontuning.NeurIPS,2024.2,16
[48]HaoLiu,WilsonYan,MateiZaharia,andPieterAbbeel.Worldmodelonmillion-lengthvideoandlanguagewithringattention.arXivpreprintarXiv:2402.08268,2024.8
[49]YuanxinLiu,ShichengLi,YiLiu,YuxiangWang,ShuhuaiRen,LeiLi,SishuoChen,XuSun,andLuHou.Temp-Compass:DovideoLLMsreallyunderstandvideos?InFindingsofACL,2024.8
[50]YuanLiu,HaodongDuan,YuanhanZhang,BoLi,SongyangZhang,WangboZhao,YikeYuan,JiaqiWang,ConghuiHe,ZiweiLiu,etal.Mmbench:Isyourmulti-modalmodelanall-aroundplayer?InECCV,2025.8
[51]QingLyu,ShreyaHavaldar,AdamStein,LiZhang,DelipRao,EricWong,MariannaApidianaki,andChrisCallison-Burch.Faithfulchain-of-thoughtreasoning.InACL,2023.
6
[52]ArjunMajumdar,AnuragAjay,XiaohanZhang,PranavPutta,SriramYenamandra,MikaelHenaff,SnehaSilwal,PaulMcvay,OleksandrMaksymets,SergioArnaud,etal.Openeqa:Embodiedquestionansweringintheeraoffoun-dationmodels.InCVPR,2024.8
[53]KarttikeyaMangalam,RaiymbekAkshulakov,andJitendraMalik.Egoschema:Adiagnosticbenchmarkforverylong-formvideolanguageunderstanding.NeurIPS,2023.2,8
[54]JuliaMcAfooseandBernhardT.Baune.Exploringvi-sual–spatialworkingmemory:Acriticalreviewofconceptsandmodels.NeuropsychologyReview,2009.3
[55]ChiaraMeneghetti,LauraMiola,TommasoFeraco,Veron-icaMuffato,andTommasoFeracoMiola.Individualdif-ferencesinnavigation:anintroductoryoverview.Primearchivesinpsychology,2022.2
[56]IdaMomennejad,HoseinHasanbeig,FelipeVieiraFru-jeri,HiteshiSharma,NebojsaJojic,HamidPalangi,RobertNess,andJonathanLarson.Evaluatingcognitivemapsandplanninginlargelanguagemodelswithcogeval.NeurIPS,2024.8
[57]YaoMu,QinglongZhang,MengkangHu,WenhaiWang,MingyuDing,JunJin,BinWang,JifengDai,YuQiao,andPingLuo.Embodiedgpt:Vision-languagepre-trainingviaembodiedchainofthought.NeurIPS,2024.8
[58]LynnNadel.TheHippocampusandContextRevisited.Ox-fordUniversityPress,2008.7
[59]HumzaNaveed,AsadUllahKhan,ShiQiu,Muham-madSaqib,SaeedAnwar,MuhammadUsman,NaveedAkhtar,NickBarnes,andAjmalMian.Acomprehen-siveoverviewoflargelanguagemodels.arXivpreprintarXiv:2307.06435,2023.2
[60]NoraS.Newcombe.SpatialCognition.MITPress,2024.https://oecs.mit.edu/pub/or750iar.2,7
[61]MunanNing,BinZhu,YujiaXie,BinLin,JiaxiCui,LuYuan,DongdongChen,andLiYuan.Video-bench:Acomprehensivebenchmarkandtoolkitforevaluat-ingvideo-basedlargelanguagemodels.arXivpreprintarXiv:2311.16103,2023.8
[62]AbbyO’Neill,AbdulRehman,AbhinavGupta,AbhiramMaddukuri,AbhishekGupta,AbhishekPadalkar,AbrahamLee,AcornPooley,AgrimGupta,AjayMandlekar,etal.Openx-embodiment:Roboticlearningdatasetsandrt-xmodels.arXivpreprintarXiv:2310.08864,2023.2,8
63]MaximeOquab,TimothéeDarcet,ThéoMoutakanni,HuyV.Vo,MarcSzafraniec,VasilKhalidov,PierreFer-nandez,DanielHAZIZA,FranciscoMassa,AlaaeldinEl-Nouby,MidoAssran,NicolasBallas,WojciechGaluba,RussellHowes,Po-YaoHuang,Shang-WenLi,IshanMisra,MichaelRabbat,VasuSharma,GabrielSynnaeve,HuXu,HerveJegou,JulienMairal,PatrickLabatut,Ar-mandJoulin,andPiotrBojanowski.DINOv2:Learningrobustvisualfeatureswithoutsupervision.TMLR,2024.8
[64]LetitiaParcalabescuandAnetteFrank.Onmeasuringfaith-fulnessorself-consistencyofnaturallanguageexplana-tions.InACL,2024.6
[65]AlecRadford.Improvinglanguageunderstandingbygen-erativepre-training.OpenAIBlog,2018.2,8
[66]AlecRadford,JeffreyWu,RewonChild,DavidLuan,DarioAmodei,IlyaSutskever,etal.Languagemodelsareunsupervisedmultitasklearners.OpenAIblog,1(8):9,2019.2,8
[67]AlecRadford,JongWookKim,ChrisHallacy,AdityaRamesh,GabrielGoh,SandhiniAgarwal,GirishSastry,AmandaAskell,PamelaMishkin,JackClark,etal.Learningtransferablevisualmodelsfromnaturallanguagesuper-vision.InICML,2021.8
[68]SanthoshKumarRamakrishnan,ErikWijmans,PhilippKraehenbuehl,andVladlenKoltun.Doesspatialcognition emerg in frontier models?arXiv:2410.06468,2024.8
[69]MarcoTulioRibeiro,SameerSingh,andCarlosGuestrin."whyshoulditrustyou?"explainingthepredictionsofanyclassifier.InKDD,2016.6
[70]JuliaRozanova,DeborahFerreira,KrishnaDubba,WeiweiCheng,DellZhang,andAndreFreitas.Groundingnatu-rallanguageinstructions:Canlargelanguagemodelscap-turespatialinformation?arXivpreprintarXiv:2109.08634,2021.8
[71]GerardSaltonandMichaelJ.McGill.IntroductiontoMod-ernInformationRetrieval.McGraw-Hill,Inc.,USA,1986.
4
[72]ShennaShepardandDouglasMetzler.Mentalrotation:ef-fectsofdimensionalityofobjectsandtypeoftask.Journalofexperimentalpsychology:Humanperceptionandperfor-mance,14(1):3,1988.2
[73]DídacSurís,SachitMenon,andCarlVondrick.Vipergpt:Visualinferenceviapythonexecutionforreasoning.InICCV,2023.7
[74]YihongTang,AoQu,ZhaokaiWang,DingyiZhuang,ZhaofengWu,WeiMa,ShenhaoWang,YunhanZheng,ZhanZhao,andJinhuaZhao.Sparkle:Masteringbasicspatialcapabilitiesinvisionlanguagemodelselicitsgen-eralizationtocompositespatialreasoning.arXivpreprintarXiv:2410.16162,2024.8
[75]GeminiTeam,RohanAnil,SebastianBorgeaud,Jean-BaptisteAlayrac,JiahuiYu,RaduSoricut,JohanSchalk-wyk,AndrewMDai,AnjaHauth,KatieMillican,etal.Gemini:afamilyofhighlycapablemultimodalmodels.arXivpreprintarXiv:2312.11805,2023.2,8
[76]GeminiTeam,PetkoGeorgiev,VingIanLei,RyanBurnell,LibinBai,AnmolGulati,GarrettTanzer,DamienVincent,ZhufengPan,ShiboWang,etal.Gemini1.5:Unlockingmultimodalunderstandingacrossmillionsoftokensofcon-text.arXivpreprintarXiv:2403.05530,2024.2,4,6,8,16
[77]XiaoyuTian,JunruGu,BailinLi,YichengLiu,YangWang,ZhiyongZhao,KunZhan,PengJia,XianpengLang,andHangZhao.Drivevlm:Theconvergenceofautonomousdrivingandlargevision-languagemodels.InCoRL,2024.
2
[78]E.C.Tolman.Cognitivemapsinratsandmen.Psycholog-icalReview,55(4):189–208,1948.2,7
[79]HugoTouvron,ThibautLavril,GautierIzacard,XavierMartinet,Marie-AnneLachaux,TimothéeLacroix,Bap-tisteRozière,NamanGoyal,EricHambro,FaisalAzhar,etal.Llama:Openandefficientfoundationlanguagemod-els.arXivpreprintarXiv:2302.13971,2023.2,8
[80]HugoTouvron,LouisMartin,KevinStone,PeterAlbert,AmjadAlmahairi,YasmineBabaei,NikolayBashlykov,SoumyaBatra,PrajjwalBhargava,ShrutiBhosale,etal.Llama2:Openfoundationandfine-tunedchatmodels.arXivpreprintarXiv:2307.09288,2023.2,8
[81]DavidEdWallerandLynnEdNadel.Handbookofspatialcognition.AmericanPsychologicalAssociation,2013.2
[82]GuanzhiWang,YuqiXie,YunfanJiang,AjayMandlekar,ChaoweiXiao,YukeZhu,LinxiFan,andAnimaAnandku-mar.Voyager:Anopen-endedembodiedagentwithlargelanguagemodels.TMLR,2023.7
[83]PengWang,ShuaiBai,SinanTan,ShijieWang,ZhihaoFan,JinzeBai,KeqinChen,XuejingLiu,JialinWang,WenbinGe,etal.Qwen2-vl:Enhancingvision-languagemodel’sperceptionoftheworldatanyresolution.arXivpreprintarXiv:2409.12191,2024.8
[84]XuezhiWang,JasonWei,DaleSchuurmans,QuocVLe,EdH.Chi,SharanNarang,AakankshaChowdhery,andDennyZhou.Self-consistencyimproveschainofthoughtreasoninginlanguagemodels.InICLR,2023.7,15
[85]JasonWei,YiTay,RishiBommasani,ColinRaffel,Bar-retZoph,SebastianBorgeaud,DaniYogatama,MaartenBosma,DennyZhou,DonaldMetzler,etal.Emergentabil-itiesoflargelanguagemodels.TMLR,2022.2
[86]JasonWei,XuezhiWang,DaleSchuurmans,MaartenBosma,FeiXia,EdChi,QuocVLe,DennyZhou,etal.Chain-of-thoughtpromptingelicitsreasoninginlargelan-guagemodels.NeurIPS,2022.7,15
[87]WenshanWu,ShaoguangMao,YadongZhang,YanXia,LiDong,LeiCui,andFuruWei.Visualization-of-thoughtelicitsspatialreasoninginlargelanguagemodels.NeurIPS,2024.8
[88]FuzhaoXue,YukangChen,DachengLi,QinghaoHu,LigengZhu,XiuyuLi,YunhaoFang,HaotianTang,ShangYang,ZhijianLiu,etal.Longvila:Scalinglong-contextvisuallanguagemodelsforlongvideos.arXivpreprintarXiv:2408.10188,2024.4,8
[89]YutaroYamada,YihanBao,AndrewKyleLampinen,JungoKasai,andIlkerYildirim.Evaluatingspatialunderstandingoflargelanguagemodels.TMLR,2024.8
[90]JianweiYang,HaoZhang,FengLi,XueyanZou,ChunyuanLi,andJianfengGao.Set-of-markpromptingunleashesextraordinaryvisualgroundingingpt-4v.arXivpreprintarXiv:2310.11441,2023.8
[91]JihanYang,RunyuDing,EllisBrown,XiaojuanQi,andSainingXie.V-irl:Groundingvirtualintelligenceinreallife.InECCV,2024.8
[92]ShunyuYao,DianYu,JeffreyZhao,IzhakShafran,TomGriffiths,YuanCao,andKarthikNarasimhan.Treeofthoughts:Deliberateproblemsolvingwithlargelanguagemodels.InNeurIPS,2024.7,15
[93]HanrongYe,HaotianZhang,ErikDaxberger,LinChen,ZongyuLin,YanghaoLi,BowenZhang,HaoxuanYou,DanXu,ZheGan,etal.Mm-ego:Towardsbuildingego-centricmultimodalllms.arXivpreprintarXiv:2410.07177,2024.8
[94]ChandanYeshwanth,Yueh-ChengLiu,MatthiasNießner,andAngelaDai.Scannet++:Ahigh-fidelitydatasetof3dindoorscenes.InICCV,2023.3,13
[95]WeihaoYu,ZhengyuanYang,LinjieLi,JianfengWang,KevinLin,ZichengLiu,XinchaoWang,andLijuanWang.Mm-vet:Evaluatinglargemultimodalmodelsforinte-gratedcapabilities.ICML,2024.8
[96]XiangYue,YuanshengNi,KaiZhang,TianyuZheng,RuoqiLiu,GeZhang,SamuelStevens,DongfuJiang,WeimingRen,YuxuanSun,etal.Mmmu:Amassivemulti-disciplinemultimodalunderstandingandreasoningbench-markforexpertagi.InCVPR,2024.4,6,8
[97]KaichenZhang,BoLi,PeiyuanZhang,FanyiPu,JoshuaAdrianCahyono,KairuiHu,ShuaiLiu,YuanhanZhang,JingkangYang,ChunyuanLi,etal.Lmms-eval:Realitycheckontheevaluationoflargemultimodalmod-els.arXivpreprintarXiv:2407.12772,2024.16
[98]PeiyuanZhang,KaichenZhang,BoLi,GuangtaoZeng,JingkangYang,YuanhanZhang,ZiyueWang,HaoranTan,ChunyuanLi,andZiweiLiu.Longcontexttransferfromlanguagetovision.arXivpreprintarXiv:2406.16852,2024.
4
[99]YuanhanZhang,BoLi,haotianLiu,YongjaeLee,LiangkeGui,DiFu,JiashiFeng,ZiweiLiu,andChunyuanLi.Llava-next:Astrongzero-shotvideounderstandingmodel,2024.4,8
[100]ZhihaoZhang,JunZhao,QiZhang,TaoGui,andXuan-jingHuang.Unveilinglinguisticregionsinlargelanguagemodels.InACL,2024.2
[101]Qian-YiZhou,JaesikPark,andVladlenKoltun.Open3D:Amodernlibraryfor3Ddataprocessing.arXiv:1801.09847,2018.13
[102]ChenmingZhu,TaiWang,WenweiZhang,JiangmiaoPang,andXihuiLiu.Llava-3d:Asimpleyeteffectivepathwaytoempoweringlmmswith3d-awareness.arXivpreprintarXiv:2409.18125,2024.8
A. 附录概要
在这些补充材料中,我们提供:
• 有关 VSI-Bench 构建以及我们的语言和视觉分析的技术细节(附录 B);
• VSI-Bench 子实验的评估设置和完整评估结果(附录 C);
• 输入排序和重复分析(附录D);
• 其他可视化结果(附录E)。
B. VSI-Bench 构建和分析的技术细节
在本节中,我们将提供有关构建 VSI-Bench 的更多技术细节,并通过自我解释、基于思想链的方法和认知图来分析 MLLM 思维。
B.1. VSI-基准搭建管道
在这里,我们讨论基准构建管道中每个阶段的具体设置。
数据集收集和统一
我们通过从 ARKitScenes [5] 收集 150 个样本、从 ScanNet++ [94] 收集 50 个样本以及从 ScanNet [19] 收集 88 个样本来整理我们的评估数据集。对于视频处理,我们将 ScanNet 的各个帧转换为 24 FPS 的连续视频,同时将 ScanNet++ 和 ARKitScenes 视频二次采样为 30 FPS。所有视频的分辨率均标准化为 640 × 480 像素。鉴于 ARKitScenes 包含具有不同方向的视频,我们对它们的旋转进行标准化,以在所有样本中保持一致的向上方向。
由于三个数据集的注释结构不同,我们将它们统一为每个场景的标准化元信息格式,具有以下属性:数据集、视频路径、房间大小、房间中心、对象计数和对象边界框。房间大小是通过 Alpha 形状算法和场景点云计算得出的。房间中心被计算为场景点云的最小边界框的几何中心。对象计数记录每个类别的实例数。对于对象边界框,我们将不同的注释格式统一为Open3D中OrientedBoundingBox的格式[101]。
对于元信息中包含的类别,我们仔细地从三个源数据集中挑选了类别子集。由于我们的基准测试旨在评估 MLLM 的视觉空间智能,因此我们排除了稀有类别和对象尺寸极小的类别,以减少感知挑战。此外,我们还实施类别重新映射,以确保词汇的一致性和内部性对基准的直观理解。此类别重新映射也会在人工审核过程中迭代完善。
QA 配对生成
每个 QA 对包含以下属性:问题 ID、源数据集、任务类型、视频路径、问题、带字母答案的多项选择选项以及口头或数字基本事实。在 VSI-Bench 的八个任务中,七个任务的 QA 对来自统一的元信息,而路线计划 QApair 来自人工注释的路线。
我们通过准确性评估多项选择答案 (MCA) 任务,通过平均相对准确性 (MRA) 评估数字答案 (NA) 任务,但我们的 VQA 数据集还包括为 NA 任务生成的多项选择选项和字母答案。生成的多项选择选项在真实数值答案的下限因子和上限因子之间进行采样,并且如果任何两个选项彼此在给定阈值内,则重新采样。我们对每个任务的每个场景的问题数量进行子采样,以防止任何场景或任务的过度表示,并创建更平衡的数据集。对于 MCA 任务,字母答案尽可能均匀地分布。
对于对象计数任务,不包括计数为 1 的对象。对于相对距离任务,仅使用唯一实例对象作为主要类别;对象选择允许使用多个实例对象。如果某个对象类别有多个实例,则使用到主要对象的最小绝对距离。如果四个选项中的任何一个距离彼此在阈值内(面积大于 40 平方米的房间为 30 厘米,否则为 15 厘米),则该问题被视为不明确。对于相对方向任务,为了确保方向清晰,如果问题违反了任意两个对象之间距离的下限和上限或接近角度边界的阈值,则问题被视为不明确。对于出现顺序任务,第一次出现被认为是对象像素数量超过设定阈值的时间戳,并且时间戳太接近被认为是不明确的。对于对象大小任务,真实值被视为唯一对象边界框的最长尺寸。对于房间大小任务,房间大小是通过 alpha 形状算法计算的,如前所述。对于绝对距离任务,我们首先对两个对象的边界框内的点进行均匀采样。该距离是成对点之间的最小欧氏距离。对于路线规划任务,人类在给定模板和指令的情况下构建路线,分别选择任意两个独特的物体作为起始位置和结束位置,以便可以用大约两到五个动作来描述它们之间的路线。路线由两个动作组成:“前进直到[唯一对象]”和“转向[左/右/后]”。收集后,进行过滤和标准化。 问题中的“转弯”方向被替换为“[请填写]”。
表 4.中列出了生成每个任务的问题模板。
人机交互质量审查
质量审核过程贯穿我们管道的两个阶段。在数据集收集过程中,我们通过删除不完整 3D 网格重建比例较高的场景来手动过滤验证集,这些场景可能会使 3D 注释与可见视频内容不一致。 生成场景元信息后,我们手动验证其正确性,特别注重确保对象计数的正确性。
在 QA 对生成阶段,我们定制了一个用于人工质量审核的 Web 界面。人类评估者被要求在事先不知道正确答案的情况下回答基准问题。 他们会标记他们认为答案不正确的 QA 对。当评估人员发现不明确或错误的问题时,我们会追踪错误的来源并采取纠正措施,例如删除有问题的数据样本或调整元信息、问题模板或修改 QA 生成规则以防止将来出现类似问题。我们多次重复此过程以确保质量。
B.2.通过自我解释探索MLLM
在这里,我们提供更具体的实现,用于自我解释和错误分析。
自我解释
为了对模型预测背后的推理链进行错误分析,我们显式提取支持模型问答过程的推理链。 具体来说,模型预测给定问题的答案后,会进一步提示“请逐步解释你的答案”。 产生导致其预测的内部原理。需要注意的是,这个过程与思维链推理有本质的不同,思维链推理要求模型首先生成推理链,然后预测答案。
错误分析
对于错误分析,我们在 VSI-Bench (tiny) 中手动审查多项选择题的所有错误案例以及数字题表现最差的案例的下半部分,共计 163 个样本。对于每个错误案例,人类检查员需要将其主要错误归类为四个主要类别之一:视觉感知错误、语言智能错误、关系推理错误和自我中心转换错误。如果错误预测归因于多种原因,则按
1
n
\frac{1}{n}
n1 的比例分配给每个适用类别,其中 n 是错误类别的数量。
B.3. CoT 方法的实现细节
正如我们论文中详细介绍的,我们在基准上评估了几种先进的语言提示方法,包括思想链、自我一致性和思想树。在本节中,我们将详细介绍这三种方法的实现细节。
思维链提示
在 Zero-shotCoT [37, 86] 之后,我们添加了短语“让我们一步一步思考”。 针对每个问题,从大型语言模型中引出逐步推理。温度、top-p 和 top-k 参数分别设置为 0、1 和 1。模型生成预测后,我们启动另一轮对话,以提示模型明确提取其答案(例如,与多项选择题的正确选项相对应的字母或与数字问题的数值相对应的字母)。这种方法减少了模糊匹配产生的错误。
与 CoT 的自我一致性
符合自我一致性[84],我们提示 MLLM 在 Zero-shotCoT [37] 提示下为给定问题生成多个答案。为了鼓励运行之间的多样性,我们将温度设置为 0.7,top-p 设置为 1,top-k 设置为 40。最初,系统会提示模型通过逐步推理提供答案(使用 Zero-shot-CoT )。与 Zero-shot-CoT 一样,添加了一个额外的对话回合,以明确地从模型的响应中提取预测。对于每个问题,我们执行 5 次独立运行,并将多数预测作为最终答案。
思想树
受到[92]中“创意写作”实践的启发,我们将问题解决过程分为两个步骤:计划生成和答案预测。温度、top-p 和 top-k 参数与自洽设置保持一致。对于计划生成步骤,我们要求模型生成 3 个不同的计划来回答给定的问题。 然后我们开始一个新的对话,并提示模型根据视频、问题和生成的计划选择最有希望的计划。此投票过程重复 3 次,多数选择的计划将被选择用于下一步。在答案预测步骤中,根据视频和选定的计划,要求模型预测答案。 与上一步类似,生成 3 个独立的预测,模型投票 3 次以确定最置信的答案。 多数票决定最终预测。
图15、图16和图17说明了这三种提示技术和不同策略下的模型输出。
B.4.认知地图
生成
为了生成每个视频的认知图,我们指定感兴趣的目标类别,并提示 MLLM 预测每个类别的中心位置。使用以下提示:
认知图提示
[任务] 该视频捕捉室内场景。您的目标是识别视频中的特定对象,了解场景的空间排列,并估计每个对象的中心点(假设整个场景由 10x10 网格表示)。
[规则]
- 我们提供这个场景中需要关心的类别:{感兴趣的物体}。 仅关注这些类别。
- 假设整个场景由 10x10 网格表示,估计所提供类别中每个实例的中心位置。
- 如果类别包含多个实例,则包含所有实例。
- 每个对象的估计位置应准确反映其在场景中的真实位置,保留所有对象之间的相对空间关系。
[输出] 将每个对象的估计中心位置呈现为字典中的列表。严格遵循以下 JSON 格式:{“类别名称”: [(x_1, y_1), …], …}
对于感兴趣的类别,我们包括所有潜在类别,如图 10 和图 11 所示。这种设置有助于我们专注于评估 MLLM 的空间意识而不是其感知能力。相反,对于评估相对距离(如表 3 所示)等基准任务,我们将提供的类别限制为每个问题中明确提到的类别。这确保了除了问题之外不包含任何其他信息。
距离局部性计算。为了定量评估认知图,我们测量了类别间距离,如图 11 所示。具体来说,对于每个类别,我们计算其与所有其他类别的欧几里得距离。当一个类别包含多个对象时,我们将类别间距离定义为来自相应类别的任意两个对象之间的最短距离。我们对 MLLM 预测和地面真实认知图执行这些距离计算,如果 MLLM 预测的两个类别之间的距离与地面真实距离相差不超过一个网格单位,则认为 MLLM 预测的距离是正确的。我们将此评估过程应用于所有认知图,并将距离分组为八个箱,以计算不同箱的平均准确率。
C. 评估详情
C.1.一般评估设置
我们的评估流程主要使用 LMMs-Eval 项目 [97] 进行。 为了确保可重复性,除非另有说明,我们对所有模型都采用贪婪解码策略(即温度设置为0,top-p和top-k都设置为1)。 模型的输入格式如下:[视频帧][前提示][问题][后提示],其中问题包括问题和任何可用选项。不同模型和问题类型的具体前置提示和后置提示详见表7。
C.2.人工评估设置
在VSI-Bench(微型)上评估人类水平的表现时,人类评估者被允许无限的时间尽其所能地回答问题。他们同时收到问题和相应的视频,并可以多次查看视频以收集全面的信息。我们不限制评估者审核视频的次数,主要有两个原因。首先,MLLM 自动回归生成答案,使它们能够在响应生成过程中重复分析视频。其次,MLLM 旨在实现并超越实际应用中典型的人类水平性能。
C.3.帧数设置
通常,MLLM 对固定数量的帧进行二次采样以进行评估。对于所有开源模型和 GPT-4 API,按照[97],我们以均匀的时间间隔从整个视频中手动采样视频帧。对于 Gemini API,我们按照其说明将整个视频上传并提供给模型。表 1 中提供了每个模型使用的框架数量。
C.4.更多评估结果
在这里,我们提供了更多关于我们的基准测试的评估结果,包括VSI-Bench(tiny)的完整评估结果、盲评估结果以及视力启用-视力禁用的结果。
VSI-Bench(微小)结果
如表8所示。 我们提供了VSI-Bench(tiny)上所有模型的评估结果。 VSI-Bench(微小)上 MLLM 的排名和平均准确度与表 1 中报告的结果保持一致。 1. 这种一致性表明在VSI-Bench(tiny)上进行的人类评估和分析结果是可靠的。
盲评
如表所示。在图 9 中,我们展示了 VSI-Bench 上所有 MLLM 的评估结果。 一般来说,同一型号系列中的较大变体通常在盲评估中表现出更好的性能,如 Gemini-1.5 Flash 与 Gemini1.5 Pro 以及 VILA-1.5-8B 与 VILA-1.5-40B 等比较中所见。盲评估还突出了任务之间的LLM偏差。例如,LongVILA-8B 在对象计数任务中实现了 47.5% 的准确率,这得益于经常导致其预测 2 作为答案的偏差。
视力启用 - 视力禁用
标签。图 10 展示了 MLLM 使用视觉信号回答 VSI-Bench 的改进。 几乎所有 MLLM 都从视觉信号中获得了改进,在对象数量、房间大小、相对距离和出现顺序等任务上有显着的改进。
D. 输入排序和重复分析
当人类在观看视觉内容之前知道问题时,他们解决视觉问题的表现就会提高,因为这有助于将他们的注意力转移到相关的视觉线索上。然而,当前的 MLLM 通常依赖于视觉第一范式 [47, 76],这让我们研究视频-问题对的呈现顺序如何影响模型性能。 为了进行研究,我们使用 Gemini-1.5 Pro 在 VSI-Bench (tiny) 上进行了实验。
MLLM 的性能因问题优先而下降
如表5所示。如图 5 (a) 所示,与问题优先方法相比,切换到视频优先方法会导致 Gemini 的整体性能下降 2.5%。
MLLM 受益于多个视频视图
此外,人类经常通过多次审查视觉内容来提高他们的 VQA 性能,这激励我们为 MLLM 实现类似的设置。如表所示。如图 5 (b) 所示,Gemini 以两个重复视频作为输入,性能显着提高了 2.1%。这是令人惊讶的,因为理论上自回归 MLLM 能够在答案生成过程中多次重新访问视频,即使视频只呈现一次。这一发现表明,尽管像 Gemini 这样强大的 MLLM 具有非凡的功能,但其视频 QA 推理过程仍然不理想。
E. 可视化结果
在本节中,我们将呈现更多定性结果,包括更多 VSI-Bench 示例、进一步的错误分析案例研究、思想链提示示例以及其他认知图。
E.1. VSI 基准示例
在图 12 和图 13 中,我们提供了来自 VSI-Bench 的更多示例来说明任务、问题和答案的结构和格式。
E.2.误差分析实例
在图 14 中,我们展示了更多在 VSI-Bench 上进行的人工误差分析案例研究。在错误分析中,我们识别分类的错误类型并突出显示解释的相关部分。
E.3.语言提示示例
我们提供了第 5.2 节中讨论的三种 CoT 提示方法的示例,以详细说明其具体的推理过程。我们包括三个选定任务的示例:物体计数、物体大小和房间大小。对于 ZeroShot 思维链,如图 15 所示,我们突出显示了 MLLM 推理过程的每个步骤,以提供有关其如何做出最终决策的见解。对于具有 CoT 的自我一致性,如图 16 所示,每个示例都与五个独立的响应配对。然后通过多数票确定最终答案。对于思维树,图 17 详细说明了如何达到决策树的每个深度。在第一个深度,MLLM 生成三个潜在计划并进行选择分析以选择最佳计划。在第二个也是最后一个深度,选定的计划用于生成三个潜在答案,最终输出通过多数票确定。
E.4.认知图示例
在图 18 中,我们添加了 10 个额外的认知图,并将每个预测与其相应的地面实况图配对,以深入了解预测和地面实况布局之间的对齐情况。