盘点空间理解能力上表现最突出的模型

在这里插入图片描述

一、专有模型(闭源)

  1. Gemini-1.5 Pro(Google)

    • VSI-Bench(视觉空间智能评测基准)中表现最佳,准确率接近人类水平(人类平均79%,模型平均低33%),尤其在绝对距离和房间大小估计等任务中接近人类表现。
    • 基于2D数字数据训练,但展现出对空间关系的深度理解和记忆能力,例如通过视频问答对场景的时空配置进行推理。
  2. Qwen2.5-vl-72B(阿里通义千问开源版本)

    • 司南多模态闭源评测 中,以总分48.25排名第一,尤其在 空间感知 维度领先,能够精准解析多模态输入中的几何关系和场景布局。
    • 开源模型中唯一超越多个闭源商业API的模型,适用于机器人导航、工业场景理解等任务。
  3. GPT-4o(OpenAI)

    • MGSM(多语言通用句子匹配) 测试中得分90.5,显示其在多语言空间语义匹配上的优势。
    • 虽未直接评测空间理解专项,但其多模态推理能力为复杂场景分析提供基础。

二、开源模型

  1. LLaVA-NeXT-Video-72B

    • VSI-Bench 中仅次于Gemini-1.5 Pro,差距仅4%-5%,是开源模型中空间智能表现最佳者。
    • 支持视频输入的场景解析,适用于动态空间任务(如工厂流水线监控)。
  2. InternVL2.5系列

    • 在司南评测的 空间感知通用感知 维度中表现亮眼,如InternVL2.5-78b-MPO在工业场所布局理解任务中得分前列。

三、创新技术框架

  1. SpatialLM(群核科技)
    • 首个开源的 空间理解多模态模型,通过视频输入生成物理正确的3D场景布局,突破传统大模型对几何关系的理解局限。
    • 特点:
      • 支持普通视频(如手机拍摄)输入,无需专用传感器,降低开发门槛。
      • 结合群核科技积累的物理正确3D数据,生成结构化场景脚本语言,为机器人训练提供仿真环境。
    • 应用方向:具身智能机器人导航、AR/VR场景建模等。

四、提升空间智能的关键技术

  • 认知地图生成:通过显式生成空间认知地图,模型在空间任务中的准确率可提升10%。
  • 合成数据引擎:如群核科技的 SpatialVerse 平台,结合SpatialLM生成虚拟场景,实现“现实-虚拟-现实”闭环训练,加速机器人空间决策能力迭代。

总结

当前空间理解能力的领先模型以 Gemini-1.5 ProQwen2.5-vl-72B 为代表,分别在闭源和开源领域占据优势。技术框架如 SpatialLM 通过开源推动行业协作,为具身智能提供基础训练支持。未来,随着认知地图生成、多模态合成数据等技术的发展,空间智能有望在机器人、自动驾驶等领域实现更广泛应用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值