官方博客:
https://ai.meta.com/blog/segment-anything-2/
官方论文:https://ai.meta.com/research/publications/sam-2-segment-anything-in-images-and-videos/
一、研究背景
-
研究问题:这篇文章要解决的问题是如何在图像和视频中进行可提示的视觉分割(Promptable Visual Segmentation, PVS)。具体来说,研究目标是构建一个能够处理视频帧序列并生成时空分割掩码的基础模型。
-
研究难点:该问题的研究难点包括:视频中的实体可能会因运动、变形、遮挡、光照变化等因素而发生显著外观变化;视频质量通常低于图像,且处理大量帧效率低下;现有的视频分割模型和数据集在处理视频分割任务时表现不佳。
-
相关工作:该问题的研究相关工作有:Segment Anything(SA)模型在图像分割中的应用;交互式视频对象分割(iVOS)任务;半监督视频对象分割(VOS)方法;现有的视频分割数据集如DAVIS、YouTube-VOS等。
二、研究方法
这篇论文提出了Segment Anything Model 2(SAM 2),用于解决视频和图像的可提示视觉分割问题。具体来说,
-
模型架构:SAM 2是一个简单的Transformer架构,配备了流式内存以进行实时视频处理。该模型能够在单个图像和视频帧中生成分割掩码,并通过存储对象的先前交互信息