1. 概述
在GTC2025全球大会上,群核科技宣布开源其自主研发的空间理解模型SpatialLM。该模型仅通过一段视频即可生成物理正确的3D场景布局。SpatialLM专门设计用来处理点云数据并进行空间理解。该模型通过分析来自不同来源的数据(如手机视频、RGBD图像、LiDAR传感器等),重建和理解三维环境。它能够将杂乱无章的3D点云转化为结构化的空间描述,包括房间布局、物体位置和尺寸、墙壁、窗户、门等关键信息。这种能力对于机器人在现实环境中的导航、避障、物品搬运等任务至关重要。
- 项目地址:https://github.com/manycore-research/SpatialLM
2. 关键特点
- 三维视觉重建:
SpatialLM可以从普通手机视频中,甚至没有专门的设备,仅凭一部手机拍摄的视频,重建出完整的3D场景。这使得空间数据采集的成本大大降低,极大地提升了3D场景重建的效率。 - 空间翻译:
模型将点云数据转化为结构化的空间描述。比如,它能够明确指出“这是一个5.3米×4.2米的房间,北墙有两扇窗户,东墙中央有一扇门通往厨房”等详细信息。 - 精确测量:
SpatialLM不仅可以理解空间,还能准确地提供墙壁、门窗和家具等物体的精确尺寸。例如,它能够告诉机器人:沙发离墙1.2米,茶几的高度是45厘米。 - 兼容性和标准化输出:
SpatialLM的输出符合建筑行业的标准格式(如IFC格式),便于与其他设计和建筑软件进行集成,确保在实际应用中的广泛兼容性。
3. 技术核心
SpatialLM 是一种基于大型语言模型(LLM)的3D空间理解技术,专为处理和分析点云数据而设计。该模型能够将从不同来源(如普通手机视频、RGBD图像或LiDAR传感器)收集到的点云数据,转化为结构化的空间描述,帮助机器人、虚拟助手等理解并与真实世界的三维空间互动。以下是其技术核心:
- 点云数据处理与重建
SpatialLM通过使用MASt3R-SLAM算法,从RGB视频中提取每一帧的空间特征,进而构建一个完整的三维点云模型。点云中的每一个小点都包含空间的深度信息和位置,通过这些数据,SpatialLM能够重建出一个物理上合理且符合真实世界几何特征的场景。 - 点云编码与空间理解
生成的点云数据经过点云编码器处理,转化为紧凑的特征表示。然后,SpatialLM采用其大语言模型(LLM)将这些特征进一步转化为高层次的场景代码。这些场景代码不仅描述了空间中的几何形态(如物体的位置、尺寸等),还包括物体的语义分类(如沙发、床、门等)。 - 物理规则与精确测量
SpatialLM还能够依据物理规则提供精确的测量信息,例如物体之间的距离、尺寸及空间布局的合理性。这对于机器人在进行空间导航、任务规划时至关重要。例如,机器人可以通过“沙发与墙壁的距离是1.2米”这样的信息来避免碰撞。 - 兼容性与标准化输出
SpatialLM能够将输出结果转化为行业标准格式(如IFC格式),这一点使得它能够与各种设计软件及建筑管理工具兼容。这样,空间理解的结果不仅能够直接应用于机器人导航、自动化任务,还能方便地导入到建筑设计或仿真环境中进行进一步应用。
4. 商业应用
4.1 具身智能与机器人系统
- 自主导航与避障:SpatialLM 为移动机器人、清洁机器人、安防机器人等提供精确的空间感知能力,使其能够理解室内外环境结构,动态规划路径并安全避障。
- 操作任务与交互:支持服务机器人识别家具结构、定位目标物体(如“桌上的杯子”),提升抓取、搬运等任务执行的准确性。
- 多机器人协作:通过统一的空间理解表示,实现机器人之间对场景的共享认知,提高协同作业效率。
4.2 智能建筑与数字孪生
- 空间建模与BIM集成:可自动将场景重建结果输出为建筑行业通用的 IFC 格式,直接对接建筑信息模型(BIM)系统,实现数字化改造。
- 室内空间规划与优化:辅助设计师或智能系统进行家具布局、空间动线分析等操作,提升居住与办公空间效率。
- 老旧建筑数字化:通过视频或扫描快速生成3D结构,为文物修缮、设施升级提供基础数据。
4.3 智能家居与IoT系统
- 场景感知中心:作为智能家居系统的空间感知模块,帮助设备理解“在哪儿”、“对象是什么”,提升语义控制和联动策略。
- 空间语义地图构建:配合语音助手实现自然语言到空间行为的映射,例如:“打开厨房的灯”或“扫地机器人回到充电站”。
4.4 教育与职业培训
- 3D空间教学平台:在建筑、设计、工程、机器人学等领域中,辅助学生从感性到结构性地理解空间关系。
- VR/AR课程内容生成:教师可借助普通视频素材生成教学环境,拓展远程实验教学的形式和内容。
在 AR/VR及游戏开发中,其虚拟场景生成能力为沉浸式体验提供了低成本解决方案。
5.5 智能制造与仓储物流 - 自动仓库建模与规划:对工厂车间、仓储区域进行空间理解,辅助AMR(自主移动机器人)路径规划和货架识别。
- 数字工厂管理:结合 IoT 传感器,构建实时三维空间数字孪生系统,实现工厂可视化运维。