大规模语言模型驱动的跨尺度空间智能调查:具身代理、智慧城市和地球科学的进展

冯杰,曾劲伟,龙庆跃, β { }^{\beta} β 陈宏毅,赵洁, † { }^{\dagger} 席彦欣,周志伦,袁媛, § { }^{\S} § 王盛源,曾庆斌,李松炜,张云科,
林宇明,李彤,丁景涛,高辰,徐凤丽,李勇
清华大学电子工程系,BNRist,北京,中国,
β { }^{\beta} β 清华大学深圳国际研究生院,深圳,中国,
§ { }^{\S} § 清华大学计算机科学系,北京,中国,
† { }^{\dagger} 赫尔辛基大学计算机科学系,赫尔辛基,芬兰
{fengjie, liyong07}@tsinghua.edu.cn

摘要

在过去一年中,大规模语言模型(LLMs)的发展使空间智能成为关注焦点,其中对基于视觉的具身智能尤为关注。然而,空间智能涵盖更广泛的学科和尺度,从导航和城市规划到遥感和地球科学。这些领域中的空间智能有何差异和联系?在本文中,我们首先回顾人类空间认知及其对LLMs中空间智能的影响。然后,我们考察LLMs中的空间记忆、知识表示和抽象推理,强调它们的作用和联系。最后,我们分析跨尺度的空间智能——从具身到城市再到全球层面——遵循一个从空间记忆和理解到空间推理和智能的框架。通过这项调查,我们旨在为跨学科的空间智能研究提供见解,并激励未来的研究。

1 引言

空间智能是一个本质上跨学科的研究领域,涵盖了多个领域的多样化挑战、应用场景和方法论。例如,在房间内导航需要空间智能,设计15分钟社区依赖于空间智能,预测图像可能的位置涉及空间智能,分析气候的空间模式也是一种形式的空间智能。换句话说,空间智能无处不在,并在人类社会和物理世界中发挥着至关重要的作用。

空间智能研究有着深厚的历史根源。一方面,它是人类理解自身认知和感知机制的重要途径 [Ishikawa, 2021; Eichenbaum and Cohen, 2014]。从心理地图绘制到寻路策略的人类空间认知研究,为人类智能提供了基础性的见解。另一方面,空间智能在现实世界应用中长期以来具有实际意义,例如具身导航 [Lin et al., 2024]、地理信息系统 (GIS) [Zhao et al., 2024] 和气候预测 [She et al., 2024]。空间智能研究继续发展,连接认知科学、人工智能和应用领域。

深度学习的快速发展,特别是大规模语言模型(LLMs),显著推动了近年来的空间智能研究。LLMs 在世界知识、规划和推理能力以及任务上的强大泛化方面取得了显著进展。这些进步推动了具身智能的研究 [Gupta et al., 2021],其中 LLMs 在机器人导航、多模态感知和控制等领域中扮演核心角色。近期的工作,如 SpatialVLM [Chen et al., 2024] 和 Voxposer [Huang et al., 2023b],展示了 LLMs 如何提高具身代理的空间推理和决策能力,使它们在复杂环境中更有效地运行。

除了具身智能之外,LLMs 还激发了城市和全球尺度空间智能的新研究。例如,在城市研究中,LLMs 已被整合到地理空间数据中以优化城市规划 [Zhou et al., 2024b]、交通预测 [Li et al., 2024e] 和基础设施管理 [Lai et al., 2023]。在全球范围内,研究人员探索了如何利用 LLMs 提高遥感分析 [Kuckreja et al., 2024] 和灾害预测 [Zhang et al., 2023b] 等能力,这说明了 LLMs 在处理大规模地理空间信息并为全球决策生成有意义见解方面的潜力。这些跨学科应用突显了 LLMs 对空间智能研究的变革性影响,为多个领域的未来发展铺平了道路。

尽管在各个领域的空间智能研究正在增长,但仍然缺乏一个统一的框架来全面理解和分析它。现有的研究通常专注于特定方面,例如基于视觉的具身智能、城市规划或遥感智能,而没有跨学科和跨尺度地整合见解。为了弥补这一差距,本调查从人类认知、基本空间能力和多尺度系统智能的角度追溯空间智能的发展,涵盖具身代理、城市智能和地球科学。通过综合这些视角,我们旨在为跨学科研究提供一个连贯的基础,为未来的空间智能进步提供见解和灵感。

我们的调查做出了三项关键贡献。首先,它建立了一个结构化的分析框架,用于理解跨不同学科和尺度的空间智能,从空间记忆和感知到推理和高级智能逐步推进。其次,它综合了现有文献中关于多个领域中使用LLMs进行空间智能应用的内容,同时讨论了LLMs中的空间记忆、知识表示和空间推理,为研究人员提供了及时且有价值的参考。第三,它探讨了跨学科空间智能研究中的关键挑战和开放问题,揭示了具身、城市和全球尺度智能之间的联系,并勾勒出未来探索的有希望方向。

2 背景和分类法

2.1 人类的空间智能

在这里,我们首先从神经科学和认知科学的角度回顾人类空间智能研究,阐明各种领域和尺度上空间智能的潜在能力和起源。此外,我们还探讨了空间智能与其他人类智能的关系。这些发现将增强我们对跨域空间智能关键能力的理解,并促进构建和增强空间智能的更有效方法的发展。

2.1.1 认知地图

空间认知地图是环境知识的内部表示,其特征在于主观性和失真 [Ishikawa, 2021]。Tolman 在1948年引入了这个概念 [Tolman, 1948],后来由Eichenbaum等人扩展 [Cohen, 1993; Eichenbaum and Cohen, 2014],强调海马体在空间和非空间记忆中的作用。在神经水平上,空间表示依赖于海马体中的位置细胞和内侧颞叶皮层中的网格细胞 [Moser et al., 2008; Moser et al., 2017]。当个体处于特定位置时,位置细胞会被激活,而网格细胞则提供类似坐标系统的环境映射。这些细胞与头部方向细胞和边界细胞一起构成了构建空间认知地图的神经基础 [Long et al., 2025]。最近的进步,如 Tolman-Eichenbaum Machine (TEM) [Whittington et al., 2020],通过结构抽象和跨环境表示展示了通过网格细胞实现空间和关系记忆泛化的可能性。相比之下,大规模语言模型 (LLMs) 利用 Transformer 架构模拟空间任务,如位置编码和导航,与海马体功能相似 [Whittington et al., 2021]。

2.1.2 空间图式

图式是高层次的知识结构,封装了从多次经验中抽象出来的共同特征。这些结构在感知、解释和记忆事件的过程中起着关键作用。随着新经验和记忆的积累,它们不断演变,影响记忆的形成、巩固和检索 [Gilboa and Marlatte, 2017]。在人类空间认知中,图式起着至关重要的作用。空间图式是通过在不同环境中转移和概括经验形成的高层次空间认知结构。与认知地图不同,它们的处理集中在新皮质的特定区域。空间图式本质上高度抽象,通过在类似环境中整合重叠的神经表示而形成。它们作为超越具体环境的高层次空间表示,例如现代城市的预期布局 [Farzanfar et al., 2023]。空间图式和认知地图作为不同层次的空间认知结构相互作用和影响,共同贡献于人类空间认知。

最近的研究探讨了基于LLMs的空间智能与人类空间智能的相似性和联系,例如 Momennejad 等人 [Momennejad et al., 2024] 评估了它们的认知绘图能力。然而,LLMs 存在局限性,包括拓扑推理错误(如虚构路径、效率低下)和视觉空间感知差距。虽然研究人类和LLMs的认知地图为理解空间智能提供了有价值的见解,但在增强LLMs的图式学习和空间句法整合方面仍面临重大挑战。

2.2 空间智能的分类法

基于人类空间记忆和智能,我们提出了LLMs中的空间记忆和智能的分类法,如图2所示,并基于此框架对当前研究进行了全面调查。具体来说,我们首先介绍使LLMs具备空间智能的基础能力,这些能力分为空间记忆和知识以及抽象空间推理能力。随后,我们关注空间智能在现实世界中的应用,探讨三个维度:具身智能、城市智能和地球智能。

3 LLMs中空间智能的基础能力

3.1 LLMs中的空间记忆和知识

空间记忆是指回忆过去遇到的空间关系、实体和属性的认知能力。空间知识是一个更广泛的概念,不仅包括这种记忆,还包括与空间相关的常识推理和逻辑思维。一般的空间记忆和知识结合了抽象空间认知和真实世界环境能力。

最近,最先进的大规模语言模型(LLMs)在处理空间任务方面表现出色
带有空间记忆和知识 [Bhandari et al., 2023]。多模态大规模语言模型(MLLMs)也扩展了这一能力,展现出对来自语言和视觉模态的空间信息的记忆和知识 [Yang et al., 2024b]。空间记忆和知识可以来源于内部或外部。内部而言,空间记忆和知识在预训练或后训练阶段被编码在LLMs的参数中 [Petroni et al., 2019; Gurnee and Tegmark, 2024; Roberts et al., 2020]。外部而言,LLMs可以在需要时利用外部空间记忆或知识存储 [Mansourian and Oucheikh, 2024]。LLMs的空间记忆和知识是其空间智能的重要组成部分。许多通用和空间特定的任务都基于准确和充足的空间环境记忆和知识,包括问答 [Mai et al., 2021; Yamada et al., 2023]、导航[Epstein et al., 2017; Feng et al., 2024c] 和地理定位[Haas et al., 2024]。随着预训练生成模型的蓬勃发展,改进LLMs空间记忆和知识的方法不断涌现。各种训练方法被用来编码空间信息 [Feng et al., 2024a]。其他工作则通过整合外部知识库来提供空间记忆和知识 [Yu et al., 2024b]。之前的工作还尝试利用压缩的空间知识来增强LLMs [Manvi et al., 2023]。

尽管取得了这些快速进展,LLMs的空间记忆和知识领域仍面临挑战。一个重大挑战是幻觉 [Lee et al., 2022],即LLMs可能会生成不真实的或不忠实的内容 [Huang et al., 2023a],从而削弱其在空间背景下的任务有效性。另一个紧迫的挑战是知识编辑 [Zhang et al., 2023c]。鉴于空间环境的动态性质,有必要持续且
img-2.jpeg

图3:该图说明了LLMs中空间记忆和知识的核心概念。LLMs通过内部和外部来源构建其空间记忆和知识,以执行诸如问答、导航和地理定位等任务,同时也面临着诸如幻觉缓解和知识编辑等挑战。
及时更新LLMs的记忆和知识,以反映准确的空间信息。

3.2 LLMs的抽象空间推理

抽象推理能力是一种关键的认知能力,能够使智能体将复杂的现实简化为可操作的心理模型。在空间智能的背景下,抽象推理起着至关重要的作用:它不仅将复杂的物理空间简化为可管理的心理模型,还为更高层次的空间认知提供了基础,成为客观空间环境与认知表示之间的重要桥梁。

随着LLMs在认知任务中显示出潜力,评估其空间抽象推理能力已成为一个关键的研究方向,既有助于了解其局限性,也能指导未来的改进。目前对LLMs空间抽象推理能力的评估主要集中在三个方向:定性空间推理 [Yamada et al., 2023; Sharma, 2023; Lehnert et al., 2024; Li et al., 2024a]、几何推理 [Zhang et al., 2024; Kazemi et al., 2023] 和图理论推理 [Luo et al., 2024]。定性空间推理评估模型通过语言描述理解空间关系和变换的能力。在这一领域,LLMs在多步推理任务中表现出了显著的性能下降,同时表明结构化思维框架可以有效缓解这些限制 [Li et al., 2024a]。在空间规划问题中,[Lehnert et al., 2024] 显示,像搜索动态引导这样的训练策略在复杂的空间规划任务中有了显著改进。几何推理侧重于评估模型对数学几何概念及其在空间问题解决中的应用的理解。GeoEval [Zhang et al., 2024] 全面评估了LLMs在各种几何领域的表现,并识别出其在逆向推理中的弱点,同时展示了问题重述策略的有效性。GeomVerse [Kazemi et al., 2023] 系统地
演示了VLMs在深层几何推理任务中的挣扎,这些任务需要长推理链而非简单的知识检索。图理论推理考察模型理解和操作图结构的能力。在此领域,GraphInstruct [Luo et al., 2024] 开发了一个全面的测试集,揭示了LLMs在复杂图算法如最小生成树、哈密顿路径和最短路径方面的困难。然而,他们的研究表明,通过强调中间推理步骤的结构化训练方法可以克服这些限制。此外,Xu [Xu et al., 2025] 等人开创了一个心理测量框架,定义了视觉-语言模型(VLMs)中的五种基本空间能力(BSAs),同时强调了几何编码弱和缺乏动态模拟能力等问题。

总之,当前在这三个方向上的评估显示,预训练的LLMs主要依靠语言理解来处理抽象空间问题,缺乏真正的空间认知能力。方法论改进,包括结构化推理框架、知识引导训练和中间过程监督,已经显示出解决这些限制的潜力。展望未来,该领域需要更全面的评估标准和与人类表现的有意义比较,以更好地理解和提升LLMs的空间推理能力。

4 基于LLM的实际世界空间智能

4.1 具身空间智能

如图5所示,具身AI中的空间智能包含两个关键阶段:1)空间感知和理解,代理人获取和处理空间信息以构建环境的内部表示;2)空间交互和导航,利用这些表示进行移动、任务执行和决策。
img-3.jpeg

图4:抽象空间推理的概念框架。该框架说明了空间推理能力的三个主要维度:定性推理、几何推理和图推理。LLMs仍面临将语言理解转化为抽象空间认知的挑战。

4.1.1 空间感知和理解

空间感知和理解对于具身智能至关重要,允许代理(例如机器人)导航、互动和推理周围环境。最近的研究探讨了多模态大规模语言模型(MLLMs)如何通过整合视觉和文本数据来增强这些能力,改善空间推理并实现交互决策。这一领域的进展主要涉及三个方面:多模态空间感知、场景级空间推理和基于记忆的空间探索。

多模态空间感知集中于融合RGB、深度和文本信息以增强对象定位和理解。例如,LLMI3D [Yang et al., 2024a] 通过空间增强特征提取和基于3D查询标记的解码,实现了从单个2D图像估计3D对象位置的功能。SpatialBot [Cai et al., 2024] 集成深度感知以改善机器人操作和空间推理,受其SpatialQA数据集支持,该数据集训练模型进行深度估计和对象接地。虽然这些方法扩展了LLMs的感知能力,但在有效集成多模态数据和改进精细深度推理方面仍存在挑战。

超越对象级感知,场景级空间推理使代理能够理解空间关系、对齐多视图信息并解释动态环境。Video-3D LLM [Zheng et al., 2024] 通过将3D空间坐标嵌入视频特征增强了基于视频的LLMs,支持3D问答、视觉接地和密集字幕。Scene-LLM [Fu et al., 2024] 集成了自我中心和全局3D场景表示,使用基于3D点的特征以更有效地进行场景理解和交互规划。这些模型提高了代理随时间处理空间信息的能力,尽管将连续3D空间结构与基于语言的推理对齐仍然是一个未解决的挑战。

对于长期空间推理和自适应决策,基于记忆的空间探索允许代理保留和回忆空间知识。例如,3D-
Mem [Yang et al., 2024d] 引入多视图Memory Snapshots以存储已探索的空间数据和前沿快照以识别未探索区域,帮助代理平衡知识检索和主动探索。这种方法增强了终身学习和自主适应,但确保可扩展性和开发有效的检索机制对于实际部署将是重要的。

随着研究的进展,改进多模态融合、细化空间推理和优化记忆机制对于推进LLM驱动的具身智能中的空间感知和理解至关重要。

4.1.2 空间交互和导航

空间交互和导航涉及基于空间感知和理解的动作执行。这些动作包括规划机器人动作和预测空间环境中的未来轨迹。新兴研究深入探讨了在空间交互和导航中结合MLLMs的应用。这一领域的进展主要集中在两个方面:运动控制和导航。

运动控制可分为简单动作生成和复杂环境中的交互。前者应用MLLMs的感知能力直接生成目标动作。例如,RT-2 [Zitkovich et al., 2023] 将在互联网规模数据上预训练的视觉-语言模型(VLMs)集成到机器人动作生成中。VIMA [Jiang et al., 2022] 利用基于变压器的架构设计以处理多模态提示并自回归生成电机动作。然而,在复杂环境中,推理能力使空间智能能够处理开放式任务。VexPoser [Huang et al., 2023b] 通过利用MLLMs的推理和代码编写能力生成3D空间表示并规划机器人动作。GAJ-VGG [Wang et al., 2023] 设计了一个图神经网络(Graph Action Justification)来构建代表障碍物布局及其周围环境的图数据,通过空间和语义关系,并输出最优动作。
img-4.jpeg

图5:具身空间智能的简单示意图。该框架说明了两个连续阶段:空间感知和理解和空间交互和导航。

导航任务感知和记忆周围环境,并通过推理预测下一个位置。根据所使用的大规模模型类别,导航可分为基于语言模型和基于视觉-语言模型的任务。通过将结构化的基于文本的地图输入到LLM中,Guide-LLM [Song et al., 2024] 实现室内空间感知,并利用LLM的推理能力进行路径规划。NavGPT [Zhou et al., 2024a] 使用视觉模型将环境图像转换为文本,并应用LLM将当前环境描述与历史环境摘要相结合,进行轨迹规划。为了弥合基于LLM的导航范式与Vision-Language-Navigation(VLN)-专用模型之间的差距,NavGPT-2 [Zhou et al., 2025] 集成室内视觉观察与MLLMs,并结合导航策略网络以改进导航推理。TopV-Nav [Zhong et al., 2024] 使用鸟瞰环境图像中的边界框和文本标签提示MLLMs的空间排列,并通过MLLM推理进行动态地图缩放和目标导向导航。MP5 [Qin et al., 2024] 设计了一个具身系统,通过在Minecraft中调用MLLMs进行主动感知,分解复杂的开放世界任务并感知环境。VSI-Bench [Yang et al., 2024b] 探索MLLMs进行室内路线规划,并发现MLLMs可以与简单的认知地图设计有效工作。NWM [Bar et al., 2024] 提出了一种可控的视频生成模型,用于预测导航的未来目标帧。

4.2 城市空间智能

具身空间智能主要涉及手臂范围内的微空间的交互和移动,而在更大尺度上,LLMs需要根本不同的空间推理范式。这种范式转变源于一个关键的尺度效应:随着空间维度的扩展,代理的物理尺寸相对于环境变得微不足道。因此,代理从在身体嵌入的具体空间中操作转变为处理超出即时物理范围的扩展空间域。这种转变需要从主观具身到客观空间表示的认知转变,要求LLMs将空间概念化为具有抽象属性的独立实体。这种表示能力使得高级空间功能得以实现,包括但不限于认知绘图、路径查找、轨迹优化,甚至生成性空间设计。

城市环境成为这些宏观尺度空间智能发展的最佳试验场。作为人类创造的最复杂的空间系统,城市将异质元素整合到多层次结构中,涵盖物理基础设施、功能区和社会经济网络。其固有的空间复杂性已经推动了城市计算和空间计量经济学等跨学科研究前沿,建立了必要的方法论基础。如图6所示,为了系统地研究城市空间智能,我们提出一个框架,区分理解、记忆、推理和智能能力。前者评估LLMs编码和保留大量城市元素的能力,后者考察其执行城市特定任务(如流动性模拟、服务分配优化和城市规划)的操作能力。

4.2.1 空间理解和记忆

空间记忆指模型回忆地理信息和不同空间元素之间关系的能力 [Gurnee and Tegmark, 2024]。预训练的大规模语言模型(LLMs)自然地从嵌入在其训练语料库中的地理数据中获取空间先验 [Manvi et al., 2024]。这使模型能够以模仿人类空间记忆的方式识别、存储和检索空间信息,这对需要地理推理或解释的任务至关重要。

它可以分为两个关键方面:(1) 区域特征理解和 (2) 推理空间位置和关系。为了理解区域特征,Manvi 等人 [Manvi et al., 2023] 提出了 GEOLLM 来从 LLMs 中提取地理空间知识。还研究了 LLMs 学习的地理信息中的偏差 [Manvi et al., 2024]。Kuckreja 等人 [Kuckreja et al., 2024] 利用卫星图像来理解区域特征。卫星图像与 LLMs 结合也被用于预测社会经济指标 [Yan et al., 2024]。此外,多模态数据——如卫星图像、语言和兴趣点(POIs)——被用于更好地理解区域特征并预测社会经济结果 [Xiao et al., 2024]。为了推理空间位置和关系,Ning 等人 [Ning 和 Liu, 2024] 利用 LLM-
img-5.jpeg

图6:城市空间智能可分为四种主要类型:空间理解、空间记忆、空间推理和空间智能。每种类型包括其独特的任务和范式。

Agent 构建城市知识图谱 [Liu et al., 2022; Liu et al., 2023]。我们总结了空间理解两个方面的关键方法。对于区域特征理解,一种常见的方法是通过提示工程提取先验知识,这涉及从开源数据中收集空间信息并使用多模态数据集成对区域特征进行对齐。另一种重要策略是利用 LLMs 辅助下游任务,通过生成训练数据和为模型训练提供指导。关于空间位置和关系,模型可以基于其预训练的先验推断空间结构,使用嵌入的地理知识推理空间关系。此外,还开发了自动化工具来构建和验证关系数据集,促进空间数据的结构化表示并增强地理推理。

4.2.2 空间推理和智能

城市中的空间推理指的是通过推理基于空间数据或空间关系得出新的空间信息或预测未来的城市发展动态。例如,GeoReasoner 是一个框架,它集成了 LLMs 进行地理空间定位,利用高质量的街景数据集来增强空间推理能力 [Li et al., 2024c]。此外,一些研究集中在推理城市居民的潜在行为模式。Wang 等人使用 LLM 分两阶段建模个人流动性:第一阶段,识别居民流动的时空模式;第二阶段,使用这些模式生成轨迹 [Wang et al., 2024a]。同样,Feng 等人将轨迹预测分为三个子任务,这些任务影响流动性:记住个人流动模式、学习群体共享的空间转换关系、整合城市结构的空间知识,充分利用 LLMs 的地理空间知识 [Feng et al., 2024b]。Shao 等人开发了一条计划行为链,利用 LLMs 的逐步推理能力实现递归推断
流动性意图 [Shao et al., 2024]。Gong 等人设计了一个访问意图记忆网络和一个人类旅行偏好提示池,帮助 LLMs 更好地理解访问意图和旅行偏好的语义 [Gong et al., 2024]。

城市空间智能专注于基于空间数据进行决策和响应,能够在复杂的城市场景中做出实时判断。例如,城市规划是一项典型的需要空间决策的任务。Zhou 等人提出了一种多代理协作框架用于参与式城市规划 [Zhou et al., 2024b]。此外,交通信号控制动态调整以适应空间环境,优化整个交通系统的效率。LLMLight 将任务描述和实时交通状况集成到提示中,利用 LLM 的链条推理能力确定最佳控制策略 [Lai et al., 2023]。导航任务可以识别复杂空间环境中的实时变化,提供最佳导航解决方案。例如,Xu 等人提出 Flame [Xu et al., 2024a],通过三个阶段增强推理能力:从理解单一街景描述任务到处理多图像路径规划任务,最终实现端到端的城市导航空间决策。Schumann 等人将 LLM 与真实世界的环境互动结合,使用语言方法处理轨迹和视觉观察,为导航任务中的决策问题提供上下文提示 [Schumann et al., 2024]。具体来说,Zeng 等人提出了一种感知-反思-计划工作流程,使 LLM 代理能够在城市环境中自主导航 [Zeng et al., 2024]。

4.3 地球空间智能

地球空间智能(ESI)是人工智能和地球科学交叉领域的跨学科领域。ESI 通过利用大规模时空数据和尖端技术,如大规模语言模型(LLMs)和多模态 LLMs(MLLMs),应对气候科学、地理学、海洋学和地质学等领域的复杂挑战。这些模型处理海量数据集,揭示模式并生成推动建模、决策和环境韧性提升的见解。在气候科学中,LLMs 通过捕捉时空依赖关系和整合气象栅格数据,增强了降水和气候事件的预测能力。在地理学中,它们与地理信息系统(GIS)结合,实现自动地理空间推理和局部空间分析,同时通过自适应模块和对比学习改进情境推导。在海洋学中,视觉-语言模型实现对自主水下航行器(AUVs)的自然语言控制,同时时空编码解决数据稀疏问题,推动波高预测和海洋环境建模的进步。在地质学中,LLMs 整合影像和调查数据以建模地质现象,改进空间推理并简化基于遥感的矿产勘探。ESI 正通过联合自然语言理解、多模态整合和时空推理改变地球科学。这一迅速发展的领域为科学发现、可持续资源管理和应对全球紧迫挑战提供了深远的机会。

4.3.1 全球编码

在全球范围内,智能的一个关键方面是适当的位置编码,使机器能够有效感知和理解空间信息。尽管基于大型语言模型的应用通常使用经度和纬度来表示位置 [Manvi et al., 2023; Yan and Lee, 2024],机器学习和深度学习方法采用了多种空间表示方法 [Wu et al., 2024]。具体来说,二维表示方法包括直接瓦片ID编码、正弦位置编码器和基于核的技术,而三维方法包括笛卡尔坐标编码和各种自监督表示策略。根据 TorchSpatial 基准 [Wu et al., 2024],Sphere2Vec-sphereC+ 方法 [Mai et al., 2023]——一种保持地球上任意两点顺序的自监督三维编码技术——是最有效和最有信息量的位置编码方法。值得注意的是,即使直接瓦片ID编码方法——尽管在常见
空间表示技术中表现最差——仍然显著优于GPT-4V [Wu et al., 2024]。这一现象可能强调了大型语言模型在显式空间学习任务中的适用性令人沮丧;然而,它们在少量样本、零样本和类似场景中表现出色,并展示了利用多源数据的显著灵活性。

4.3.2 气候

气候事件具有强烈的时空依赖性,这已被总结为知识并在某种程度上被语言模型所掌握。因此,有人尝试利用语言模型来预测或预报气候事件。LLMDiff 纳入了来自预训练LLM的冻结变换块作为通用视觉编码层,旨在捕捉长期时间依赖性并准确估算运动趋势,以改进降水临近预报 [She et al., 2024]。CLLMate 纳入了LLM和VLM,将气象栅格数据与天气和气候事件信息对齐并在对齐的数据集上进行训练,实现了准确的气候事件预报 [Li et al., 2024b]。值得注意的是,在气候领域,大型模型已经被广泛应用和探索。GenCast [Ravuri et al., 2021] 提出了一种基于机器学习的天气预测模型,生成准确的15天概率集合天气预报。PanguWeather [Bi et al., 2023] 引入了具有地球特异性先验的三维深度网络和分层时间聚合策略,实现了中程全球天气预报。NowcastNet [Zhang et al., 2023b] 通过结合物理演化方案和条件学习方法,实现了极端降水的非线性临近预报,产生高达3小时提前期的高分辨率、物理合理的预报。Fuxi [Chen et al., 2023] 引入了一个级联机器学习天气预报系统,利用ECMWF ERA5再分析数据39年的数据,提供每6小时一次的15天全球预报,空间分辨率为 0.2 5 ∘ 0.25^{\circ} 0.25。大型模型在气候建模中的成功验证了通过大规模数据训练不断提高的预测能力。

4.3.3 地理

考虑到大型语言模型掌握的丰富地理知识,其在地理相关任务中的直接应用已被广泛探索。地理相关任务要么涉及在全球范围内提取和感知与位置相关的知识,要么涉及需要直接判断和操作特定位置的任务,如定位和制图。两项基准工作全面评估了大型语言模型在这两类任务中的能力。Manvi 等人发现,仅使用地理坐标查询LLMs对预测人口密度等关键指标无效;然而,将OpenStreetMap中的辅助地图数据纳入提示显著提高了预测准确性 [Manvi et al., 2023]。Roberts 等人发现,虽然MLLMs在基于记忆的地理任务中表现良好,如识别地点或从给定信息中识别模式,但在基于推理或更智能的任务中,如情境推导和高级地理空间分析,它们面临重大挑战 [Roberts et al., 2024]。为了解决大型语言模型现有的局限性,GeoGPT 利用成熟的GIS工具解决地理空间任务,将LLMs的语义理解能力与GIS工具以自主方式结合 [Zhang et al., 2023a]。GeoSEE 纳入六个信息收集模块,LLMs自动选择以适应特定指标和国家 [Han et al., 2024]。GeoReasoner 纳入两种对比损失以增强语言模型的推理能力,通过使附近位置和相同实体的表示更相似 [Yan and Lee, 2024]。

4.3.4 其他学科

LLMs 还应用于其他学科,如海洋科学和地质学。凭借自然语言理解、泛化性和推理等卓越能力,LLMs 被用于解决这些学科中的典型挑战,如数据稀疏和复杂决策。

在海洋科学中,LLMs 被用于车辆控制,因其具备空间规划和推理能力。例如,OceanPlan 利用 LLMs 通过自然语言命令控制自主水下航行器(AUV)[Yang et al., 2024c]。具体来说,它利用视觉语言模型将图像观测转换为文本语义图以记忆已探索的海洋环境。它进一步提出了一种分层规划框架,将自然语言命令转换为 AUV 的控制输入,并在特殊情况下自适应调整计划。此外,LLMs 的泛化和小样本学习能力适合解决空间预测中的数据稀疏问题。Li 等人使用 LLMs 根据稀疏观测数据预测海洋显著波高 [Li et al., 2024d]。为了增强 LLM 的空间理解能力,他们首先通过时空编码器从观测数据中编码时空特征,然后将其与自然语言提示的嵌入对齐并输入 LLM 进行预测。

在地质学中,Xu 等人使用 LLMs 预测隧道中的地质条件 [Xu et al., 2024b]。他们首先构建知识图谱(KG)以整合多模态数据并将其转换为低维 KG 嵌入。然后通过
补丁重编程将 KG 嵌入与提示嵌入对齐,并将其输入 LLM 进行预测。Yu 等人提出了一种多代理协作框架,以增强 MLLM 在遥感矿物勘探中的空间推理能力 [Yu et al., 2024a]。它构建了多个负责从不同遥感图像中识别不同特征的 MLLM 代理,并将它们整合在一起,显示出相当的性能。

总体而言,LLM 空间智能在这些学科中的应用可以总结为两种方式:(1) 将空间特征与提示嵌入对齐并输入 LLM 进行预测任务。(2) 设计带有 LLM 的代理工作流以实现复杂的空间推理。

5 挑战与讨论

5.1 基础空间智能

基础空间智能的研究引发了一些关键问题和挑战。首先,空间推理的形式——空间智能的核心——仍然是一个中心问题:基于语言的空间推理是否是目前已知的最有效的形式,还是有更普遍和有效的建模方法,如基于图的表示或多模态框架?其次,全面评估通用空间智能构成了一项重大挑战。当前框架往往专注于特定任务或领域,缺乏统一的方法来评估不同背景、领域和尺度下的空间智能。这种统一评估对于理解基础空间智能与其在其他领域中的表现之间的关系至关重要。这需要研究核心空间能力,如心理旋转或空间记忆,如何转化为专业化领域中的高级应用。解决这些问题不仅将推进我们对空间智能的理论理解,还将为开发更强大和有效的通用人工智能模型提供指导。

5.2 具身空间智能

对于具身智能,空间记忆和智能研究中存在两个重大挑战。首先,当前的具身智能研究仅部分将空间认知的先验知识作为方法设计的灵感来源。虽然一些研究松散地借鉴了人类空间认知的原则——如寻路、心理地图或物体操控——这些灵感往往是表面的,缺乏系统地整合到计算模型中。因此,迫切需要一种将模型设计与人类空间认知的基本机制紧密结合的方法。这种方法不仅可以提高模型的鲁棒性和适应性,还可以为理解人类智能的基本原理提供见解。然而,实现这种整合本质上具有挑战性,因为它需要弥合认知科学、神经科学和具身人工智能之间的差距。其次,具身智能研究涵盖了多级空间智能和认知的广阔光谱,每个级别都有其独特的特征。例如,在较低级别,任务
如机器人操控,需要精细的运动控制和精确的空间推理以在受限环境中与物体交互。另一方面,较高层次的任务,如无人飞行器(UAV)的路径规划,涉及大规模的空间推理。因此,是否可能构建一个整合多级(即多粒度)空间智能的通用模型用于具身AI任务仍是一个开放的问题。

5.3 城市空间智能

尽管城市空间智能取得了显著进展,但仍存在几个关键挑战。首先,城市数据的异质性带来了根本性的限制:当前框架难以将多模态输入(例如卫星图像、兴趣点和移动模式)统一为一致的空间表示,通常导致碎片化的理解。而且,复杂空间结构的文本化表示对于城市专业人士来说总是值得怀疑的。其次,空间推理的鲁棒性受到LLMs依赖静态训练数据的限制,这些数据不足以捕捉实时交通流量或不断演变的社会经济因素等动态城市现象。第三,LLMs驱动的城市规划和导航任务中的空间决策的可解释性差距引发了对可信度的担忧,特别是当模型优先考虑统计相关性而非因果空间关系时。因此,未来的研究可能优先考虑三个方向:(1) 动态空间建模,将实时数据与LLMs集成,使适应城市动态成为可能,同时解决约束问题;(2) 因果空间推理框架,解开环境、社会和基础设施之间的相互依赖关系,解决在文本范式中处理空间信息的关注和阻力;(3) 在缓解空间偏差方面的伦理挑战,这在LLM中的地理先验中被突出显示,需要系统审计方法以确保公平的城市智能应用。

5.4 地球空间智能

LLM在推进地球空间智能方面具有变革潜力,但必须克服若干挑战才能充分实现其能力。一个关键限制是其在推理密集型任务中的表现,如地理学、地质学及其他领域中的情境推导和高级空间分析,瓶颈仍然存在。虽然多模态LLMs(MLLMs)和新兴框架如GeoReasoner和MineAgent通过利用对比学习和多代理系统展现出前景,但仍需进一步创新以实现稳健的地理空间理解。特定领域的数据集成也提出了重大障碍。例如,海洋科学常常面临数据稀疏问题,需要定制解决方案如OceanGPT和时空编码器。同时,地质学和气候科学等领域高度依赖复杂的多模态输入,包括知识图谱嵌入和专业提示,这些都需要在LLM架构内无缝对齐。未来的研究方向包括利用迁移学习以适应相关地球科学领域的预训练模型,从而减少数据需求并促进知识共享。基准平台如OceanBench和集成系统如GeoGPT可以提供标准化和跨ESI子领域的严格评估,推动有针对性的进步。人机协作系统和可解释人工智能(XAI)框架可以进一步增强可解释性和信任,而因果推理的进步则有可能更好地捕捉动态地球过程。跨学科合作将是将这些进步转化为气候韧性和可持续发展的可行解决方案的关键。通过应对这些挑战,LLMs可以解锁更精确的预测和见解,以应对全球环境挑战。

5.5 与世界模型的关系

在本文中,我们探讨了空间智能领域的空间理解和任务解决。世界模型的概念最近作为该领域的一个重要主题出现,特别是在具身空间智能中,由基于扩散的生成模型的进展推动。如最近的一项调查[Ding et al., 2024]所述,世界模型——根植于心理学的心理模型——具有两个关键功能:构建内部表示以解释世界的底层机制,并预测未来状态以指导决策。我们的工作主要集中在第一个功能上,开发内部表示以加深空间理解。从计算角度来看,这与基于模型的强化学习一致,其中参数化的环境模型增强了智能行为。尽管我们解决了世界模型的大多数方面,但我们的重点在于理解而非生成方面,如结果预测。为了更广泛地探索生成能力,我们推荐读者参考[Ding et al., 2024]。展望未来,我们认为将这些生成能力整合到空间智能建模中具有相当大的前景。这可以实现更强大的系统,不仅能够理解,还能预测并在物理世界中行动,可能解决当前基础模型中的局限性,如Feng等人指出的城市知识缺乏颗粒度[Feng et al., 2024a; Feng et al., 2024c]。

6 结论

本文从神经科学和认知科学中的人类空间智能研究开始讨论,回顾和总结了自LLMs时代以来不同学科尤其是不同空间尺度上的空间智能研究。旨在提供跨领域空间智能研究的全面概述,帮助上下文化现有研究并激发未来研究方向。我们相信,跨尺度的多领域空间智能研究将成为未来的重要研究领域,在多个领域产生重大影响和深远应用。此外,深入研究空间智能反过来将为通用人工智能的发展提供信息,为人类向真正的通用人工智能迈进奠定坚实基础。

参考文献

[Bar et al., 2024] Amir Bar, Gaoyue Zhou, Danny Tran, Trevor Darrell, 和 Yann LeCun。导航世界模型。arXiv 预印本 arXiv:2412.03572, 2024.
[Bhandari et al., 2023] Prabin Bhandari, Antonios Anastasopoulos, 和 Dieter Pfoser。大规模语言模型是否具备地理空间知识?第31届ACM国际地理信息系统大会论文集,第1-4页,2023年。
[Bi et al., 2023] Kaifeng Bi, Lingxi Xie, Hengheng Zhang, Xin Chen, Xiaotao Gu, 和 Qi Tian。使用3D神经网络进行准确的中期全球天气预报。自然,619(7970):533-538, 2023年。
[Cai et al., 2024] Wenxiao Cai, Yaroslav Ponomarenko, Jianhao Yuan, Xiaoqi Li, Wankou Yang, Hao Dong, 和 Bo Zhao。Spatialbot: 使用视觉语言模型进行精确的空间理解。arXiv 预印本 arXiv:2406.13642, 2024。
[Chen et al., 2023] Lei Chen, Xiaohui Zhong 等。伏羲:一种用于15天全球天气预报的级联机器学习预测系统。npj Clim. Atmos. Sci., 2023。
[Chen et al., 2024] Boyuan Chen, Zhuo Xu 等。SpatialVLM: 赋予视觉语言模型空间推理能力。CVPR会议录,2024。
[Cohen, 1993] NJ Cohen。记忆、遗忘症和海马系统。MIT Press, 1993。
[Ding et al., 2024] Jingtao Ding, Yunke Zhang, Yu Shang, Yuheng Zhang, Zefang Zong, Jie Feng, Yuan Yuan, Hongyuan Su, Nian Li, Nicholas Sukiennik 等。理解世界还是预测未来?世界模型的全面综述。arXiv 预印本 arXiv:2411.14499, 2024。
[Eichenbaum and Cohen, 2014] Howard Eichenbaum 和 Neal J Cohen。我们能否调和陈述性记忆和空间导航关于海马功能的观点?Neuron, 83(4):764-770, 2014。
[Epstein et al., 2017] Russell A Epstein, Eva Zita Patai, Joshua B Julian, 和 Hugo J Spiers。人类的认知地图:空间导航及更多。自然神经科学,20(11):1504-1513, 2017。
[Farzanfar et al., 2023] Delaram Farzanfar, Hugo J Spiers, Morris Moscovitch, 和 R Shayna Rosenbaum。从认知地图到空间图式。自然评论神经科学,24(2):63-79, 2023。
[Feng et al., 2024a] Jie Feng, Yuwei Du, Tianhui Liu, Siqi Guo, Yuming Lin, 和 Yong Li。CityGPT: 强化大型语言模型的城市空间认知能力。arXiv 预印本 arXiv:2406.13948, 2024。
[Feng et al., 2024b] Jie Feng, Yuwei Du, Jie Zhao, 和 Yong Li。AgentMove: 使用基于大型语言模型的代理框架预测人类移动性。arXiv 预印本 arXiv:2408.13986, 2024。
[Feng et al., 2024c] Jie Feng, Jun Zhang, Tianhui Liu, Xin Zhang, Tianjian Ouyang, Junbo Yan, Yuwei Du, Siqi Guo,
和 Yong Li。CityBench: 评估大型语言模型在城市任务中的能力,2024。
[Fu et al., 2024] Rao Fu, Jingyu Liu, Xilun Chen, Yixin Nie, 和 Wenhan Xiong。Scene-LLM: 扩展语言模型以进行3D视觉理解和推理。arXiv 预印本 arXiv:2403.11401, 2024。
[Gilboa and Marlatte, 2017] Asaf Gilboa 和 Hannah Marlatte。图式及其介导的记忆的神经生物学。认知科学趋势,21(8):618-631, 2017。
[Gong et al., 2024] Letian Gong, Yan Lin, Xinyue Zhang, Yiwen Lu, Xuedi Han, Yichen Liu, Shengnan Guo, Youfang Lin, 和 Huaiyu Wan。Mobility-LLM: 使用大型语言模型从人类移动数据中学习访问意图和旅行偏好。arXiv 预印本 arXiv:2411.00823, 2024。
[Gupta et al., 2021] Agrim Gupta, Silvio Savarese 等。通过学习和进化实现具身智能。自然通讯,2021。
[Gurnee and Tegmark, 2024] Wes Gurnee 和 Max Tegmark。语言模型表示空间和时间,2024。
[Haas et al., 2024] Lukas Haas, Michal Skreta, Silas Alberti, 和 Chelsea Finn。鸽子:预测图像地理位置。计算机视觉和模式识别会议论文集,第12893-12902页,2024。
[Han et al., 2024] Sungwon Han, Donghyun Ahn, Seungeon Lee, Minhyuk Song, Sungwon Park, Sangyoon Park, Jihee Kim, 和 Meeyoung Cha。GeoSEE: 使用大型语言模型进行区域社会经济估计。arXiv 预印本 arXiv:2406.09799, 2024。
[Huang et al., 2023a] Lei Huang, Weijiang Yu, Weitao Ma, Weihong Zhong, Zhangyin Feng, Haotian Wang, Qianglong Chen, Weihua Peng, Xiaocheng Feng, Bing Qin 等。关于大型语言模型中的幻觉的调查:原则、分类、挑战和开放问题。arXiv 预印本 arXiv:2311.05232, 2023。
[Huang et al., 2023b] Wenlong Huang, Chen Wang, Ruohan Zhang, Yunzhu Li, Jiajun Wu, 和 Li Fei-Fei。Voxposer: 使用语言模型进行机器人操作的可组合3D值图。arXiv 预印本 arXiv:2307.05973, 2023。
[Ishikawa, 2021] Toru Ishikawa。空间思维、认知地图和空间意识。认知处理,22(Suppl 1):89-96, 2021。
[Jiang et al., 2022] Yunfan Jiang, Agrim Gupta, Zichen Zhang, Guanzhi Wang, Yongqiang Dou, Yanjun Chen, Li Fei-Fei, Anima Anandkumar, Yuke Zhu, 和 Linxi Fan。VIMA: 具有多模态提示的一般机器人操作。arXiv 预印本 arXiv:2210.03094, 2(3):6, 2022。
[Kazemi et al., 2023] Mehran Kazemi, Hamidreza Alvari, Ankit Anand, Jialin Wu, Xi Chen, 和 Radu Soricut。GeomVerse: 大型模型几何推理的系统评估。arXiv 预印本 arXiv:2312.12241, 2023。
[Kuckreja et al., 2024] Kartik Kuckreja, Muhammad Sohail Danish, Muzammal Naseer, Abhijit Das, Salman Khan, 和 Fahad Shahbaz Khan。GeoChat: 基于遥感的大型视觉语言模型。计算机视觉和模式识别会议论文集,第27831-27840页,2024。
[Lai et al., 2023] Siqi Lai, Zhao Xu, Weijia Zhang, Hao Liu, 和 Hui Xiong。作为交通信号控制代理的大规模语言模型:能力和机会。arXiv 预印本 arXiv:2312.16044, 2023。
[Lee et al., 2022] Nayeon Lee, Wei Ping, Peng Xu, Mostofa Patwary, Pascale N Fung, Mohammad Shoeybi, 和 Bryan Catanzaro。增强事实性的语言模型用于开放式文本生成。神经信息处理系统进展,35:34586-34599, 2022。
[Lehnert et al., 2024] Lucas Lehnert, Sainbayar Sukhbaatar, DiJia Su, Qinqing Zheng, Paul Mcvay, Michael Rabbat, 和 Yuandong Tian。超越A*: 通过搜索动态引导改进变压器规划。arXiv 预印本 arXiv:2402.14083, 2024。
[Li et al., 2024a] Fangjun Li, David C Hogg, 和 Anthony G Cohn。提升大规模语言模型中的空间推理能力:使用StepGame基准的深入评估和增强。AAAI人工智能会议论文集,卷38,第1850018507页,2024。
[Li et al., 2024b] Haobo Li, Zhaowei Wang, Jiachen Wang, Alexis Kai Hon Lau, 和 Huamin Qu。CLLMate: 用于天气和气候事件预测的多模态LLM。arXiv 预印本 arXiv:2409.19058, 2024。
[Li et al., 2024c] Ling Li, Yu Ye, Bingchuan Jiang, 和 Wei Zeng。GeoReasoner: 使用大型视觉语言模型在街景中进行推理定位。第四十一届国际机器学习会议,2024。
[Li et al., 2024d] Zhe Li, Ronghui Xu, Jilin Hu, Zhong Peng, Xi Lu, Chenjuan Guo, 和 Bin Yang。使用时空感知大型语言模型估算海洋显著波高。第33届ACM国际信息和知识管理会议论文集,第3892-3896页,2024。
[Li et al., 2024e] Zhonghang Li, Lianghao Xia 等。UrbanGPT: 时空大型语言模型。KDD会议录,2024。
[Lin et al., 2024] Jinzhou Lin, Han Gao 等。使用大型语言模型进行具身导航的进展:一项调查。arXiv:2311.00530, 2024。
[Liu et al., 2022] Yu Liu, Jingtao Ding, 和 Yong Li。开发基于知识图谱的系统用于城市计算。第一届ACM SIGSPATIAL国际地理知识图谱研讨会论文集,第3-7页,2022。
[Liu et al., 2023] Yu Liu, Jingtao Ding, Yanjie Fu, 和 Yong Li。UrbanKG: 一种城市知识图谱系统。ACM智能系统和技术交易,14(4):1-25, 2023。
[Long et al., 2025] Xiaoyang Long, Daniel Bush, Bin Deng, Neil Burgess, 和 Sheng-Jia Zhang。大鼠内侧内嗅皮层中存在的自我中心和他心空间表示。自然通讯,16(1):356, 2025。
[Luo et al., 2024] Zihan Luo, Xiran Song, Hong Huang, Jianxun Lian, Chenhao Zhang, Jinqi Jiang, 和 Xing Xie。GraphInstruct: 赋予大型语言模型图理解与推理能力。arXiv 预印本 arXiv:2403.04483, 2024。
[Mai et al., 2021] Gengchen Mai, Krzysztof Janowicz, Rui Zhu, Ling Cai, 和 Ni Lao。地理问答:挑战、独特性、分类和未来方向。AGILE: GIScience系列,2:8, 2021。
[Mai et al., 2023] Gengchen Mai, Yao Xuan 等。Sphere2Vec: 在球面上进行大规模地理空间预测的通用位置表示学习。ISPRS J. P. Remote Sens., 2023。
[Mansourian and Oucheikh, 2024] Ali Mansourian 和 Rachid Oucheikh。ChatGeoAI: 使用大型语言模型通过自然语言实现公众的地理空间分析。ISPRS国际地理信息杂志,13(10):348, 2024。
[Manvi et al., 2023] Rohin Manvi, Samar Khanna, Gengchen Mai, Marshall Burke, David Lobell, 和 Stefano Ermon。GeoLLM: 从大型语言模型中提取地理空间知识。arXiv 预印本 arXiv:2310.06213, 2023。
[Manvi et al., 2024] Rohin Manvi, Samar Khanna, Marshall Burke, David Lobell, 和 Stefano Ermon。大型语言模型具有地理偏见。arXiv 预印本 arXiv:2402.02680, 2024。
[Momennejad et al., 2024] Ida Momennejad, Hosein Hasanbeig, Felipe Vieira Frujeri, Hiteshi Sharma, Nebojsa Jojic, Hamid Palangi, Robert Ness, 和 Jonathan Larson。CogEval:评估大型语言模型中的认知地图和规划。神经信息处理系统进展,36, 2024。
[Moser et al., 2008] Edvard I Moser, Emilio Kropff, 和 May-Britt Moser。位置细胞、网格细胞和大脑的空间表示系统。Annu. Rev. Neurosci., 31(1):6989, 2008。
[Moser et al., 2017] Edvard I Moser, May-Britt Moser, 和 Bruce L McNaughton。海马形成中的空间表示:历史。自然神经科学,20(11):1448-1464, 2017。
[Ning and Liu, 2024] Yansong Ning 和 Hao Liu。UrbanKGenT: 统一的大型语言模型代理框架用于城市知识图谱构建。arXiv 预印本 arXiv:2402.06861, 2024。
[Petroni et al., 2019] Fabio Petroni, Tim Rocktäschel, Patrick Lewis, Anton Bakhtin, Yuxiang Wu, Alexander H Miller, 和 Sebastian Riedel。语言模型作为知识库?arXiv 预印本 arXiv:1909.01066, 2019。
[Qin et al., 2024] Yiran Qin, Enshen Zhou, Qichang Liu, Zhenfei Yin, Lu Sheng, Ruimao Zhang, Yu Qiao, 和 Jing Shao。MP5: Minecraft中通过主动感知实现多模态开放式具身系统的框架。2024 IEEE/CVF 计算机视觉和模式识别会议 (CVPR),第16307-16316页。IEEE, 2024。
[Ravuri et al., 2021] Suman Ravuri, Karel Lenc, Matthew Willson, Dmitry Kangin, Remi Lam, Piotr Mirowski, Megan Fitzsimons, Maria Athanassiadou, Sheleem Kashem, Sam Madge 等。使用深度生成模型进行熟练的降水临近预报。自然,597(7878):672-677, 2021。
[Roberts et al., 2020] Adam Roberts, Colin Raffel, 和 Noam Shazeer。你能把多少知识打包进语言模型的参数中?arXiv 预印本 arXiv:2002.08910, 2020。
[Roberts et al., 2024] Jonathan Roberts, Timo Lüddecke, Rehan Sheikh, Kai Han, 和 Samuel Albanie。开辟新天地:探索多模态LLM的地理和地理空间能力。计算机视觉和模式识别会议论文集,第554-563页,2024。
[Schumann et al., 2024] Raphael Schumann, Wanrong Zhu, Weixi Feng, Tsu-Jui Fu, Stefan Riezler, 和 William Yang Wang。VELMA: 视觉和语言导航中LLM代理的言语体现。人工智能会议论文集,卷38,第18924-18933页,2024。
[Shao et al., 2024] Chenyang Shao, Fengli Xu, Bingbing Fan, Jingtao Ding, Yuan Yuan, Meng Wang, 和 Yong Li。超越模仿:使用大型语言模型从情境感知推理生成人类移动性。arXiv 预印本 arXiv:2402.09836, 2024。
[Sharma, 2023] Manasi Sharma。探索和改进大型语言模型的空间推理能力。我无法相信这不是更好的研讨会:基础模型时代的失败模式,2023。
[She et al., 2024] Lei She, Chenghong Zhang, Xin Man, 和 Jie Shao。LLMDiff: 使用冻结LLM变换器进行降水临近预报的扩散模型。传感器,24(18):6049, 2024。
[Song et al., 2024] Sangmim Song, Sarath Kodagoda, Amal Gunatilake, Marc G Carmichael, Karthick Thiyagarajan, 和 Jodi Martin。Guide-LLM: 一种具身LLM代理和基于文本的拓扑地图,用于为视障人士提供机器人引导。arXiv 预印本 arXiv:2410.20666, 2024。
[Tolman, 1948] Edward C Tolman。大鼠和人类的认知地图。心理评论,55(4):189, 1948。
[Wang et al., 2023] Xiaohan Wang, Yuehu Liu, Xinhang Song, Beibei Wang, 和 Shuqiang Jiang。从视觉观察生成具身体行动决策的解释。多媒体会议论文集,第2838-2846页,2023。
[Wang et al., 2024a] Jiawei Wang, Renhe Jiang, Chuang Yang, Zengqing Wu, Makoto Onizuka, Ryosuke Shibasaki, Noboru Koshizuka, 和 Chuan Xiao。大型语言模型作为城市居民:个人移动生成的LLM代理框架。arXiv 预印本 arXiv:2402.14744, 2024。
[Wang et al., 2024b] Tai Wang, Xiaohan Mao, Chenming Zhu, Runsen Xu, Ruiyuan Lyu, Peisen Li, Xiao Chen, Wenwei Zhang, Kai Chen, Tianfan Xue 等。EmbodiedScan: 一个面向具身AI的整体多模态3D感知套件。计算机视觉和模式识别会议论文集,第19757-19767页,2024。
[Whittington et al., 2020] James CR Whittington, Timothy H Muller, Shirley Mark, Guifen Chen, Caswell Barry, Neil Burgess, 和 Timothy EJ Behrens。Tolman-Eichenbaum机器:通过海马形成中的泛化统一空间和关系记忆。细胞,183(5):1249-1263, 2020。
[Whittington et al., 2021] James CR Whittington, Joseph Warren, 和 Timothy EJ Behrens。将变压器与海马形成模型和神经表征联系起来。arXiv 预印本 arXiv:2112.04035, 2021。
[Wu et al., 2024] Nemin Wu, Qian Cao 等。TorchSpatial: 一种用于空间表示学习的位置编码框架和基准。NeurIPS会议录,2024。
[Xiao et al., 2024] Congxi Xiao, Jingbo Zhou, Yixiong Xiao, Jizhou Huang, 和 Hui Xiong。Refound: 构建基于语言和视觉基础的城市区域理解基础模型。第30届ACM SIGKDD知识发现与数据挖掘会议论文集,第3527-3538页,2024。
[Xu et al., 2024a] Yunzhe Xu, Yiyuan Pan, Zhe Liu, 和 Hesheng Wang。Flame: 学习在城市环境中使用多模态LLM进行导航。arXiv 预印本 arXiv:2408.11051, 2024。
[Xu et al., 2024b] Zhenhao Xu, Zhaoyang Wang, Shucai Li, Xiao Zhang, 和 Peng Lin。GeoPredict-LLM: 通过重新编程大型语言模型实现智能隧道超前地质预测。智能岩土工程,1(1):4957, 2024。
[Xu et al., 2025] Wenrui Xu, Dalin Lyu, Weihang Wang, Jie Feng, Chen Gao, 和 Yong Li。定义和评估视觉语言模型的基本空间能力:来自心理测量的角度。arXiv 预印本 arXiv:2502.11859, 2025。
[Yamada et al., 2023] Yutaro Yamada, Yihan Bao, Andrew K Lampinen, Jungo Kasai, 和 Ilker Yildirim。评估大规模语言模型的空间理解能力。arXiv 预印本 arXiv:2310.14540, 2023。
[Yan and Lee, 2024] Yibo Yan 和 Joey Lee。GeoReasoner: 基于地理空间背景的自然语言理解推理。第33届ACM国际信息和知识管理会议论文集,第4163-4167页,2024。
[Yan et al., 2024] Yibo Yan, Haomin Wen, Siru Zhong, Wei Chen, Haodong Chen, Qingsong Wen, Roger Zimmermann, 和 Yuxuan Liang。UrbanCLIP: 使用网络对比语言-图像预训练学习文本增强的城市区域描述。ACM Web Conference 2024论文集,第4006-4017页,2024。
[Yang et al., 2024a] Fan Yang, Sicheng Zhao, Yanhao Zhang, Haoxiang Chen, Hui Chen, Wenbo Tang, Haonan Lu, Pengfei Xu, Zhenyu Yang, Jungong Han 等。LLMI3D: 赋予LLM从单个2D图像获取3D感知的能力。arXiv 预印本 arXiv:2408.07422, 2024。
[Yang et al., 2024b] Jihan Yang, Shusheng Yang, Anjali W. Gupta, Rilyn Han, Li Fei-Fei, 和 Saining Xie。思考空间:多模态大型语言模型如何看、记住和回忆空间,2024。
[Yang et al., 2024c] Ruochu Yang, Fumin Zhang, 和 Mengxue Hou。OceanPlan: 自然语言AVV导航在大规模未探索海洋环境中的分层规划和重规划。arXiv 预印本 arXiv:2403.15369, 2024。
[Yang et al., 2024d] Yuncong Yang, Han Yang, Jiachen Zhou, Peihao Chen, Hongxin Zhang, Yilun Du, 和 Chuang Gan。3D-MEM: 用于具身探索和推理的3D场景记忆。arXiv 预印本 arXiv:2411.17735, 2024。
[Yu et al., 2024a] Beibei Yu, Tao Shen, Hongbin Na, Ling Chen, 和 Denqi Li。MineAgent: 向多模态大型语言模型迈进的遥感矿物勘探。arXiv 预印本 arXiv:2412.17339, 2024。
[Yu et al., 2024b] Jun Yu, Yunxiang Zhang, Zerui Zhang, Zhao Yang, Gongpeng Zhao, Fengzhao Sun, Fanrui Zhang, Qingsong Liu, Jianqing Sun, Jiaen Liang 等。RAG引导的大型语言模型用于具有自适应幻觉校正器的视觉空间描述。第32届ACM国际多媒体会议论文集,第11407-11413页,2024。
[Zeng et al., 2024] Qingbin Zeng, Qinglong Yang, Shunan Dong, Heming Du, Liang Zheng, Fengli Xu, 和 Yong Li。感知、反思和计划:设计无指令的目标导向城市导航LLM代理。arXiv 预印本 arXiv:2408.04168, 2024。
[Zhang et al., 2023a] Yifan Zhang, Cheng Wei, Shangyou Wu, Zhengting He, 和 Wenhao Yu。GeoGPT: 通过自主GPT理解和处理地理空间任务。arXiv 预印本 arXiv:2307.07930, 2023。
[Zhang et al., 2023b] Yuchen Zhang, Mingsheng Long, Kaiyuan Chen, Lanxiang Xing, Ronghua Jin, Michael I Jordan, 和 Jianmin Wang。NowcastNet:熟练的极端降水临近预报。自然,619(7970):526-532, 2023。
[Zhang et al., 2023c] Zihan Zhang, Meng Fang, Ling Chen, Mohammad-Reza Namazi-Rad, 和 Jun Wang。大型语言模型如何捕捉不断变化的世界知识?近期进展的综述。arXiv 预印本 arXiv:2310.07343, 2023。
[Zhang et al., 2024] Jiaxin Zhang, Zhongzhi Li, Mingliang Zhang, Fei Yin, Chenglin Liu, 和 Yashar Moshfeghi。GeoEval: 用于评估LLM和多模态模型在几何问题解决上的基准。arXiv 预印本 arXiv:2402.10104, 2024。
[Zhao et al., 2024] Tianjie Zhao, Sheng Wang 等。地球科学的人工智能:进展、挑战和展望。创新,2024。
[Zheng et al., 2024] Duo Zheng, Shijia Huang, 和 Liwei Wang。Video-3D LLM: 学习位置感知的视频表示以进行3D场景理解。arXiv 预印本 arXiv:2412.00493, 2024。
[Zhong et al., 2024] Linqing Zhong, Chen Gao, Zihan Ding, Yue Liao, 和 Si Liu。TopV-Nav: 解锁MLLM在零样本对象导航中的顶视图空间推理潜力。arXiv 预印本 arXiv:2411.16425, 2024。
[Zhou et al., 2024a] Gengze Zhou, Yicong Hong, 和 Qi Wu。NavGPT: 使用大型语言模型在视觉和语言导航中的显式推理。人工智能会议论文集,卷38,第7641-7649页,2024。
[Zhou et al., 2024b] Zhilun Zhou, Yuming Lin, Depeng Jin, 和 Yong Li。参与式城市规划的大型语言模型。arXiv 预印本 arXiv:2402.17161, 2024。
[Zhou et al., 2025] Gengze Zhou, Yicong Hong, Zun Wang, Xin Eric Wang, 和 Qi Wu。NavGPT-2: 释放大型视觉语言模型的导航推理能力。欧洲计算机视觉会议论文集,第260-278页。Springer, 2025。
[Zitkovich et al., 2023] Brianna Zitkovich, Tianhe Yu, Sichun Xu, Peng Xu, Ted Xiao, Fei Xia, Jialin Wu, Paul Wohlhart, Stefan Welker, Ayzaan Wahid 等。RT-2: 视觉-语言-动作模型将网络知识转移到机器人控制。机器人学习会议论文集,第2165-2183页。PMLR, 2023。

参考论文:https://arxiv.org/pdf/2504.09848

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Paper易论

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值