汇集198篇论文，首篇关于Segment Anything Model的综述来了！-CSDN博客

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/130895752

Segment Anything Model（SAM）的出现引发了计算机视觉领域的热潮，其强大的零样本泛化能力推动了基础模型的发展。这篇综述详细介绍了SAM的起源、任务设计、模型结构和数据集构建，以及它在图像分割、交互式分割、多模态分割等多个领域的应用。SAM不仅在传统分割任务上展现出优越性能，还在图像编辑、样式迁移、目标检测等领域展示了潜力，但也面临在低对比度和复杂场景中的挑战。随着后续工作的不断涌现，SAM有望为通用人工智能带来更多突破。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

©PaperWeekly 原创 · 作者 | 小马

单位 | FightingCV公众号运营者

研究方向 | 计算机视觉

写在前面

四月份，AI Research 提出的基础分割模型 Segment Anything Model（SAM）火爆了整个网络，各种基于 SAM 的二创项目也如雨后春笋搬出现，仅仅用了一个月的时间，SAM 就达到了 70+ 的引用量极大地推动了计算机视觉基础模型的发展。

正当很多人还没弄清楚 SAM 到底做了什么的时候，港科大提出了第一篇关于 SAM 的综述。作为第一个全面回顾基于 SAM 基础模型的面向愿景和超越愿景的任务分割的进展，这篇文章通过讨论其历史发展、最新进展以及对广泛应用的深远影响，重点讨论了其在各种任务和数据类型中的应用。接下来，我们就用一篇文章来介绍 SAM 的“上下五千年”吧！

SAM的简介

基础模型在过去几年中彻底改变了人工智能（AI），这要归功于它们对网络规模数据集的全面预训练以及对广泛的下游任务的强大的零样本泛化。最近，自然语言处理（NLP）社区经历了向开发大型语言模型（LLM）的重大转变，导致了一系列开创性的工作，例如 BERT、T5、GPT-3 和 GPT-4。这些模型最令人惊叹的应用之一是 ChatGPT，这是一个由 OpenAI 开发的 AI 聊天机器人，它利用一个名为 GPT-3.5 的大型语言模型来生成对用户输入的类似人类的响应。

由于基础模型在 NLP 中的巨大成功，研究者受到启发，开始探索计算机视觉（CV）社区中的大型视觉模型。其中一项研究是扩展 vision transformer（如 VIT-G、VIT-22B、Swin Transformer V2 和 VideoMAE V2），追求 LLM 中展示的强大泛化能力。

此外，大量的工作致力于添加附加模态的知识，以增强大型视觉模型（LVM）的能力。一些值得注意的工作包括 CLIP 和 ALIGN，它们采用文本编码器和图像编码器来使用对比学习从海量噪声图像文本数据中学习图像和文本对的视觉和语言表示。在预训练之后，所学习的语义知识可用于关于新数据分布的新视觉概念，使得该模型在诸如图像-文本检索和图像生成的各种下游任务中具有零样本迁移能力。

尽管这一进展为 CV 的发展带来了新的动力，但所获得的深层模型的泛化能力仍然有限。最近，CV 社区见证了探索与任务无关的基础模型的热潮。任务不可知的基础模型的这一新的研究趋势是最近由一个被称为 segment anything model (SAM) 的模型引发的，该模型是为一般图像分割而设计的。SAM 是一个可提示的模型，使用可提示的分割任务对 1100 万张图像进行了超过 10 亿个掩码的训练，从而实现了强大的零样本泛化。

最近，社会各界提出了大量扩展工作，以探索 SAM 的能力边界并将其应用于各种任务，例如，医学图像分析、图像修复、图像编辑、样式传递、基础设施检测、伪装对象检测、镜像和透明对象检测、图像字幕、视听定位、视频对象跟踪、3D 重建、少样本对象计数以及对抗性攻击。

作为 SAM 的同期工作，SegGPT 将不同的分割任务统一到一个情境学习框架中，该框架表现出很强的零样本能力。SEEM 也提出了一种比 SAM 更通用的分割系统，它引入了比 SAM 更多样化的提示，包括视觉提示（点、框、涂鸦、掩码）、文本提示和引用提示（另一幅图像的引用区域）。作者认为，在 SEEM 中引入的统一提示方案可以将不同的提示编码到联合视觉-语义空间中，从而产生强大的零样本泛化能力，以解决不可见的用户提示进行分割。

此外，一些开创性的工作探索了用于检测/分割开放词汇场景中的任何内容的通用人工智能方法，例如 Grouding Dino、OVSeg、V3Det 和 OpenSeg。这些进展使许多研究人员相信，多功能基础模型是迈向人工通用智能（AGI）的关键一步。

背景和技术

2.1 图像分割

2.1.1 经典分割

图像分割是一项基本的计算机视觉任务，它通过将每个像素分配到一个类或对象来将数字图像分成多个部分。传统上，分割包括三个主要任务：语义、实例和全景。语义分割将每个像素分配给预定义的语义类别标签。实例分割进一步分离同一类的实例。全景分割将语义分割和实例分割相结合，以更全面地理解场景。研究人员在过去的研究中对上述任务进行了充分的探索。

由于上述任务在像素级的操作一致性，许多研究试图使用一个统一的框架来同时提供三种分割方法的解决方案，如 K-Net、MaskFormer 和 Mask2Former。

2.1.2 交互式分割

交互分割是一种特殊的分割任务，其特征是利用来自用户交互的指导的信息。尽管这是一个长期存在的挑战，但这个问题已经有了相当大的改善。通常，用户提供一些初始输入，例如点、笔划或边界框，以指示对象的大致位置和形状。然后，该算法根据用户的反馈迭代地细化分割，例如纠正错误标记的区域或添加缺失的部分。交互式分割对于许多需要精确提取对象的应用非常有用，例如医学图像分析、照片编辑和数据标注。

2.2 基础模型

基础模型是构建能够适应各种下游任务的人工智能系统的新范式。它们的基础是在海量数据上训练大型神经网络，通常使用自监督学习技术。这使他们能够学习可以迁移到不同域和应用程序的一般表示和功能。

基础模型的发展可以追溯到深度学习和自监督学习在自然语言处理领域的兴起，这使得从原始文本数据中学习强大的表示成为可能。早期的基础模型的例子是预先训练的 LLM，例如 BERT、T5 和 GPT 系列，它们在广泛的 NLP 任务中展示了令人印象深刻的能力和表现。

在 CV 研究中，现有的基础模型试图利用在大规模数据上训练的 LLM，并在从不同的大规模图文数据中学习通用视觉表征方面表现出出色的性能。代表工作包括 CLIP、Align、Florence、VLBERT、X-LXMERT 和 Dall-E，试图捕捉视觉和语言之间的跨模态交互。它们可以被迁移或直接作用于分类、检索、目标检测、视频理解、视觉问答、图像字幕和图像生成任务。

计算机视觉和多模态学习的基础模型仍然是一个活跃的研究领域，在改进其性能、稳健性、可解释性和社会影响方面存在许多挑战和机会。

2.3 Segment Anything Model