本文翻译整理自:https://ai.meta.com/sam2/
文章目录
一、关于 Meta Segment Anything Model 2 (SAM 2)
SAM 2 是一款分割模型,能够快速精准地选取视频或图像中的任意对象。
相关链接资源
- github : https://github.com/facebookresearch/segment-anything-2
- 官网:https://ai.meta.com/sam2/
- Demo/在线试用:https://sam2.metademolab.com/
- 数据集:https://ai.meta.com/datasets/segment-anything-video/
关键功能特性
- 首个支持图像与视频统一分割的模型
- 支持点击、框选或掩码作为输入方式
- 具备强大的零样本性能
- 实时交互式处理能力
- 流式推理架构设计
二、核心功能
1、跨视频帧的对象选取与调整
通过 SAM 2,用户可以在视频帧中选择单个或多个对象,并通过附加提示词来优化模型预测结果。
2、陌生场景的鲁棒分割
即使面对训练数据中未出现过的对象、图像或视频,SAM 2 仍能保持出色的零样本性能,使其适用于各种现实场景。
3、实时交互体验
采用流式推理架构设计,支持视频的实时处理与交互式应用。
三、技术优势
1、业界领先的分割性能
SAM 2 在视频和图像对象分割任务中超越当前最佳模型:
- 图像分割性能优于前代 SAM
- 视频对象分割(特别是部件追踪)超越现有方案
- 相比交互式视频分割方法,所需交互时间更少
2、模型架构创新
SAM 2 通过引入会话记忆模块扩展了 SAM 的提示能力:
- 记忆模块记录视频中目标对象的信息
- 支持对象跨帧追踪(即使暂时消失)
- 可在任意帧通过提示词修正掩码预测
- 处理图像时自动退化为 SAM 模式
四、数据集与开源
1、SA-V 视频分割数据集
- 包含约 51,000 段视频的 60 万+掩码标注
- 覆盖 47 个国家的真实场景
- 标注包含完整对象、部件及遮挡挑战
- 查看详情:https://ai.meta.com/datasets/segment-anything-video/
2、开放研究资源
- 提供预训练模型、SA-V 数据集和演示代码
- 特别注重训练数据的地理多样性
- 已完成模型公平性评估
- 下载地址:https://github.com/facebookresearch/segment-anything-2
五、应用前景
1、可扩展输出
视频分割结果可作为现代视频生成模型的输入,实现精准编辑功能。
2、可扩展输入
未来可支持更多交互方式,如实时视频中的创新交互体验。
伊织 xAI 2025-04-25(五)