一、专有模型(闭源)
-
Gemini-1.5 Pro(Google)
- 在 VSI-Bench(视觉空间智能评测基准)中表现最佳,准确率接近人类水平(人类平均79%,模型平均低33%),尤其在绝对距离和房间大小估计等任务中接近人类表现。
- 基于2D数字数据训练,但展现出对空间关系的深度理解和记忆能力,例如通过视频问答对场景的时空配置进行推理。
-
Qwen2.5-vl-72B(阿里通义千问开源版本)
- 在 司南多模态闭源评测 中,以总分48.25排名第一,尤其在 空间感知 维度领先,能够精准解析多模态输入中的几何关系和场景布局。
- 开源模型中唯一超越多个闭源商业API的模型,适用于机器人导航、工业场景理解等任务。
-
GPT-4o(OpenAI)
- 在 MGSM(多语言通用句子匹配) 测试中得分90.5,显示其在多语言空间语义匹配上的优势。
- 虽未直接评测空间理解专项,但其多模态推理能力为复杂场景分析提供基础。
二、开源模型
-
LLaVA-NeXT-Video-72B
- 在 VSI-Bench 中仅次于Gemini-1.5 Pro,差距仅4%-5%,是开源模型中空间智能表现最佳者。
- 支持视频输入的场景解析,适用于动态空间任务(如工厂流水线监控)。
-
InternVL2.5系列
- 在司南评测的 空间感知 和 通用感知 维度中表现亮眼,如InternVL2.5-78b-MPO在工业场所布局理解任务中得分前列。
三、创新技术框架
- SpatialLM(群核科技)
- 首个开源的 空间理解多模态模型,通过视频输入生成物理正确的3D场景布局,突破传统大模型对几何关系的理解局限。
- 特点:
- 支持普通视频(如手机拍摄)输入,无需专用传感器,降低开发门槛。
- 结合群核科技积累的物理正确3D数据,生成结构化场景脚本语言,为机器人训练提供仿真环境。
- 应用方向:具身智能机器人导航、AR/VR场景建模等。
四、提升空间智能的关键技术
- 认知地图生成:通过显式生成空间认知地图,模型在空间任务中的准确率可提升10%。
- 合成数据引擎:如群核科技的 SpatialVerse 平台,结合SpatialLM生成虚拟场景,实现“现实-虚拟-现实”闭环训练,加速机器人空间决策能力迭代。
总结
当前空间理解能力的领先模型以 Gemini-1.5 Pro 和 Qwen2.5-vl-72B 为代表,分别在闭源和开源领域占据优势。技术框架如 SpatialLM 通过开源推动行业协作,为具身智能提供基础训练支持。未来,随着认知地图生成、多模态合成数据等技术的发展,空间智能有望在机器人、自动驾驶等领域实现更广泛应用。