CVPR 2025 | 清华&哈佛提出4D LangSplat：4D语言场建模新方法，动态场景精准识别！-CSDN博客

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

添加微信号：CVer2233，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

周韧平投稿
转载自：量子位（QbitAI）

构建支持开放词汇查询的语言场在机器人导航、3D场景编辑和交互式虚拟环境等众多应用领域展现出巨大的潜力。尽管现有方法在静态语义场重建方面已取得显著成果，但如何建模4D语言场（4D language fields）以实现动态场景中时间敏感且开放式的语言查询，仍面临诸多挑战。而动态世界的语义建模对于推动许多实际应用的落地至关重要。

来自清华大学、哈佛大学等机构的研究团队提出了一种创新方法——4D LangSplat。该方法基于动态三维高斯泼溅技术，成功重建了动态语义场，能够高效且精准地完成动态场景下的开放文本查询任务。这一突破为相关领域的研究与应用提供了新的可能性，该工作目前已经被CVPR2025接收。

将现有静态语义场重建方法直接迁移到动态场景中，一种直观的思路是沿用CLIP提取静态的、物体级语义特征，并借鉴4D-GS等工作的思路，通过训练变形高斯场来建模随时间变化的语义。然而，这种简单的迁移存在两个关键问题：首先，CLIP最初是为图-文对齐任务设计的，其在动态语义场中的感知和理解能力存在局限性；其次，基于输入时间信息预测特征变化量的方法缺乏对特征变化的有效约束，导致动态语义场建模的学习成本显著增加。

针对上述问题，本文提出了4D LangSplat框架。该框架的核心创新在于：利用视频分割模型和多模态大模型生成物体级的语言描述，并通过大语言模型提取高质量的句子特征（sentence feature），以替代传统静态语义场重建方法（如LERF、LangSplat）中直接使用CLIP提取的语义特征。在动态语义特征建模方面，4D LangSplat引入了状态变化网络（Status Deformable Network），通过先验压缩语义特征的学习空间，实现了更加稳定和准确的语义特征建模，同时确保了特征随时间的平滑变化。

4D LangSplat的提出显著拓展了语义高斯场建模的应用场景，为动态语义场的实际落地提供了一种极具前景的解决方案。目前，该工作已在X（Twitter）平台上引发广泛关注，论文的代码和数据已全面开源。

方法论

多模态对象级视频提示技术（流程图中上半部分的红色区域）

本文结合了SAM（Segment Anything Model）和DEVA tracking技术，对物体进行分割，并在时间维度上保持物体身份的一致性。为了使多模态大模型能够更专注于已有物体的描述，首先为目标物体生成视觉提示。具体而言，视觉提示包括轮廓线（Contour）、背景虚化（Blur）和单色调整（Gray）。这一过程可以形式化地定义为：

在加入视觉提示后，首先利用多模态大模型（Qwen-Instrution-7B）生成视频级的语言描述，随后逐帧将图片和视频描述再次输入到大模型中，提示其生成特定时间步骤下的物体状态变化的自然语言描述。生成视频-物体级语言描述和图片-物体级语言描述的过程可以形式化地定义为：

对于每一条生成的图片-物体级描述，使用在sentence-embedding任务上经过微调的LLM模型（e5-mistral-7b）将其转化为语义特征，并通过分割掩码生成最终的语义特征图。此外，参考LangSplat的做法，训练了一个自动编码器，将高维特征压缩到低维空间，从而降低高斯场训练的复杂度和计算成本。

状态变化场（流程图中下半部分的绿区域）

通过对语义特征的观察，发现现实中的大部分变形和运动都可以分解为一系列状态及其之间的过渡。例如，人的运动可以分解为站立、行走、跑步等状态的组合。在特定时间点，物体要么处于某种状态，要么处于从一个状态到另一个状态的过渡中。

基于这一观察，本文提出了状态变化网络（Status Deformable Network）。该建模框架将特定时间步下的变化状态分解为若干状态的线性组合，网络以Hexplane提取的时空特征作为输入，专注于预测指定时间步下的线性组合系数。数学上，其建模方式如下：

其中，w代表模型预测的系数，S 代表状态特征。在训练过程中，状态特征和预测系数的状态变化网络联合优化，以确保对变化语义特征的准确和平滑建模。

4D 开放词汇查询

4D开放词汇查询任务定义为两个子任务：时间无关的查询和时间敏感的查询。

时间无关的查询主要考验语义场的静态语义建模能力，目标是根据指定的查询词，给出物体在每一帧的查询结果掩码，类似于物体追踪检测任务。而时间敏感查询则更注重动态语义建模能力，不仅需要给出查询物体的掩码，还需要精确到具体的时间步（例如动作发生的帧范围）。

为了完成这两个子任务，同时渲染了时间无关的语义场和时间敏感的语义场。前者基于CLIP提取语义特征，且不对语义特征的变化进行建模；后者则采用本文的方法提取时间敏感语义，并利用状态变化网络对语义特征进行建模。在进行时间敏感查询时，首先通过时间无关场生成对应物体的查询掩码，然后计算掩码内时间敏感场的平均相关系数，并给出预测帧的结果。通过结合这两个场，能够同时胜任时间敏感查询和时间无关查询任务。

实验

实验设置：

由于目前缺乏针对4D语义查询的标注数据，团队在HyperNeRF和Neu3D这两个数据集上进行了手工标注，构建了一个专门用于4D语义查询的数据集。在评估指标方面针对不同的查询任务设计了相应的衡量标准：

时间无关查询：使用平均准确率（mACC）和平均交并比（mIoU）作为查询结果的评估指标。

时间敏感查询：使用帧级别的预测准确率（ACC）和像素级别的平均交并比（vIoU）作为评估指标

实验结果：

本方法在时间敏感和时间无关查询两个子任务上都显著优于最先进的方法。在时间敏感查询上，与基于CLIP特征的方法相比，本方法在帧级别准确率（ACC）和像素级别平均交并比（vIoU）上分别提升了29.03%和27.54%。时间无关查询方面，在HyperNeRF和Neu3D两个场景中，本方法在平均交并比（mIoU）上分别比基线方法提升了7.56%和23.62%。

消融实验：
为了验证方法中各个组件的有效性，在论文中进行了详细的消融实验。实验结果表明，每个组件都对最终性能的提升起到了重要作用。

贡献总结

使用 MLLM 生成的对象文本描述构建 4D 语言特征。
为了对 4D 场景中对象的状态间平滑过渡进行建模，进一步提出了一个状态可变形网络来捕捉连续的时间变化。
实验结果表明，本方法在时间无关和时间敏感的开放词汇查询中都达到了最先进的性能。
通过人工标注，构建了一个用于4D开放词汇查询的数据集，为未来相关方向的研究提供了定量化的指标。

Project Page: https://4d-langsplat.github.io/
Paper: https://arxiv.org/pdf/2503.10437
Video: https://www.youtube.com/watch?v=L2OzQ91eRG4
Code: https://github.com/zrporz/4DLangSplat
Data: https://drive.google.com/drive/folders/1C-ciHn38vVd47TMkx2-93EUpI0z4ZdZW?usp=sharing

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

CVPR 2025 论文和代码下载

在CVer公众号后台回复：CVPR2025，即可下载CVPR 2025论文和代码开源的论文合集

ECCV 2024 论文和代码下载

在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CV垂直方向和论文投稿交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者论文投稿+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer2233，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看

CVPR 2025 | 清华&哈佛提出4D LangSplat：4D语言场建模新方法，动态场景精准识别！

周韧平 投稿转载自：量子位（QbitAI）

方法论

多模态对象级视频提示技术（流程图中上半部分的红色区域）

状态变化场（流程图中下半部分的绿区域）

4D 开放词汇查询

实验

贡献总结

周韧平投稿
转载自：量子位（QbitAI）