前阵子,字节和北大联合搞出大事情啦!他们提出了市面上首个把 SAM2 和 LLaVA 结合的多模态大模型,在视频编辑、内容创作这些任务里直接拿下 SOTA 性能,简直杀疯了💥
实不相瞒,这方向的研究热度一直呈爆发式增长。去年在 CVPR、ICML、NeurIPS 等顶会上,相关论文占比快到三分之一了。今年的 CVPR 2025,SAM + 多模态更是火得一塌糊涂,像那个实现视觉与任务统一的 SAGE 方法,关注度超高。现在这领域仍处在技术红利期,对科研 er 来说,绝对是发论文的绝佳选择📃
要是你也感兴趣,别犹豫,赶紧上手!平时可以多关注跨学科交叉方向,比如生物医学 + 量子计算 + SAM,很有潜力;还有产业界的真实需求也得盯紧,像特斯拉 FSD v13 都集成定制化 SAM 模块了。
为了帮大家找灵感,我整理了 10 篇 SAM + 多模态 2025 新论文,基本都附上了代码。觉得有用的话,点赞鼓励下呗~
论文一:Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos
方法
论文里的 Sa2VA 模型超厉害,把视频分割模型 SAM-2 和视觉语言模型 LLaVA 巧妙结合。通过让 LLM 生成指令标记,精准指导 SAM-2 进行分割,这样就能对图像和视频实现超牛的多模态密集理解啦。
创新点
- 模型融合新高度:开创性地将 SAM-2 和 LLaVA 合二为一,成功实现图像和视频统一的多模态理解,就像给模型装上了双重视觉和语言的超级大脑🧠
- 任务整合大师:把分割、对话、问答等多种任务,统一成单次指令调优,全靠 LLM 来处理视觉标记,大大提高了模型的效率和实用性。
- 数据集创新:专门创建了 Ref-SAV 数据集,这里面包含 72k 复杂视频场景的对象表达。有了它,模型性能大幅提升,还成了新的行业基准。
论文二:Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond
方法
这篇论文提出了一种基于 SAM 的超棒多模态图像融合方法。利用语义持久注意力模块,再加上双层优化蒸馏机制,不仅能高效融合红外与可见光图像,让视觉效果超赞,还能增强对下游任务的适应性,而且成功摆脱了对 SAM 的依赖,部署起来更高效啦。
创新点
- 语义融合新模块:精心设计了语义持久注意力(SPA)模块,能像聪明的小管家一样,高效整合语义信息,还能完美保留源图像的细节,让融合后的图像既清晰又有内涵。
- 优化蒸馏新机制:提出的双层优化蒸馏机制简直是神来之笔,成功让模型摆脱对 SAM 的依赖,大大降低了计算负担,运行起来轻快又流畅。
- 应用平衡高手:在提升视觉效果的同时,还能很好地平衡下游任务性能,在实际应用中效率超高,实用性拉满。
论文三:MPG-SAM2: Adapting SAM 2 with Mask Priors and Global Context for Referring Video Object Segmentation
方法
论文中的 MPG-SAM 2 框架专门为视频目标分割打造。它通过多模态编码器,把视频和文本信息巧妙整合,生成伪掩码和全局上下文,让 SAM 2 在视频目标分割时性能直线上升。
创新点
- 多模态联合编码:提出的 MPG-SAM 2 框架,用多模态编码器把视频和文本特征联合编码,就像把不同语言的信息翻译整合,让模型能更好地理解视频内容。
- 掩码先验生成:设计了掩码先验生成器,能给 SAM 2 生成目标对象的伪掩码,就像提前给模型一个小提示,让它分割目标更精准。
- 全局历史聚合:引入层次化全局 - 历史聚合器,这个小家伙能增强目标表示和时间一致性,让视频分割在时间维度上更连贯、准确。
论文四:Unveiling the Potential of Segment Anything Model 2 for RGB-Thermal Semantic Segmentation with Language Guidance
方法
论文提出的 SHIFNet 框架超有想法。通过语言引导的跨模态融合,搭配语义增强模块,成功优化了 SAM2 在 RGB-T 语义分割中的性能。SACF 模块能动态调整 RGB 与热成像融合权重,HPD 模块则利用全局语义信息和类别嵌入提升分割精度。
创新点
- 跨模态潜力挖掘:提出 SHIFNet 框架,借助语言引导,成功解锁 SAM2 在 RGB-Thermal 语义分割中的巨大潜力,还巧妙解决了多模态分割里的模态偏好问题,让模型更公平地处理不同模态信息。
- 动态权重调整:设计的 SACF 模块,能像聪明的小助手一样,利用文本信息动态调整 RGB 和热成像特征的融合权重,克服了 SAM2 对 RGB 的偏置,让分割结果更准确。
- 语义一致性优化:HPD 模块闪亮登场,它整合全局语义信息,利用类别嵌入优化特征,大大提升了跨模态语义一致性,让分割结果在语义层面更合理。
更多精彩请移步主页简介关注后回复977哈~