盘点空间理解能力上表现最突出的模型

最新推荐文章于 2025-04-27 15:00:00 发布

大囚长

最新推荐文章于 2025-04-27 15:00:00 发布

阅读量492

点赞数 3

分类专栏：大模型文章标签：人工智能

本文链接：https://blog.csdn.net/Jailman/article/details/146419229

版权

大模型专栏收录该内容

139 篇文章

订阅专栏

在这里插入图片描述

一、专有模型（闭源）

Gemini-1.5 Pro（Google）
- 在 VSI-Bench（视觉空间智能评测基准）中表现最佳，准确率接近人类水平（人类平均79%，模型平均低33%），尤其在绝对距离和房间大小估计等任务中接近人类表现。
- 基于2D数字数据训练，但展现出对空间关系的深度理解和记忆能力，例如通过视频问答对场景的时空配置进行推理。
Qwen2.5-vl-72B（阿里通义千问开源版本）
- 在 司南多模态闭源评测 中，以总分48.25排名第一，尤其在 空间感知 维度领先，能够精准解析多模态输入中的几何关系和场景布局。
- 开源模型中唯一超越多个闭源商业API的模型，适用于机器人导航、工业场景理解等任务。
GPT-4o（OpenAI）
- 在 MGSM（多语言通用句子匹配） 测试中得分90.5，显示其在多语言空间语义匹配上的优势。
- 虽未直接评测空间理解专项，但其多模态推理能力为复杂场景分析提供基础。

二、开源模型

LLaVA-NeXT-Video-72B
- 在 VSI-Bench 中仅次于Gemini-1.5 Pro，差距仅4%-5%，是开源模型中空间智能表现最佳者。
- 支持视频输入的场景解析，适用于动态空间任务（如工厂流水线监控）。
InternVL2.5系列
- 在司南评测的 空间感知 和 通用感知 维度中表现亮眼，如InternVL2.5-78b-MPO在工业场所布局理解任务中得分前列。

三、创新技术框架

SpatialLM（群核科技）
- 首个开源的 空间理解多模态模型，通过视频输入生成物理正确的3D场景布局，突破传统大模型对几何关系的理解局限。
- 特点：
  - 支持普通视频（如手机拍摄）输入，无需专用传感器，降低开发门槛。
  - 结合群核科技积累的物理正确3D数据，生成结构化场景脚本语言，为机器人训练提供仿真环境。
- 应用方向：具身智能机器人导航、AR/VR场景建模等。

四、提升空间智能的关键技术

认知地图生成：通过显式生成空间认知地图，模型在空间任务中的准确率可提升10%。
合成数据引擎：如群核科技的 SpatialVerse 平台，结合SpatialLM生成虚拟场景，实现“现实-虚拟-现实”闭环训练，加速机器人空间决策能力迭代。

总结

当前空间理解能力的领先模型以 Gemini-1.5 Pro 和 Qwen2.5-vl-72B 为代表，分别在闭源和开源领域占据优势。技术框架如 SpatialLM 通过开源推动行业协作，为具身智能提供基础训练支持。未来，随着认知地图生成、多模态合成数据等技术的发展，空间智能有望在机器人、自动驾驶等领域实现更广泛应用。