2024年8月META团队在arXiv发布最新SAM2论文,稍早些时间其已经发布SAM2的项目代码。
目测SAM2作为backbone可以取得很好的效果,这个可以想一个创新点尽快实验。
这篇论文的主要动机、问题和创新点可以总结如下:
动机:
图像分割在视觉理解中扮演着至关重要的角色,应用广泛,涵盖自然图像和医学图像的多个领域。近年来,视觉基础模型(Vision Foundation Models,VFMs)在多个任务上取得了优异的性能,尤其是Segment Anything Model(SAM1)及其后继版本SAM2展示了强大的分割能力。然而,SAM2虽然具备先进的架构和大规模数据训练,但其生成的分割结果是类不可知的(class-agnostic),即没有提供手动提示时,SAM2不能很好地适应具体任务的需求。这限制了其在实际应用中的灵活性,尤其是在需要任务特定或类别特定分割的场景中。因此,论文的动机在于如何改进SAM2模型,使其在处理不同下游图像分割任务时更加灵活、适应性更强。
现有方法的不足:
- 类不可知的分割结果:SAM2在没有提示输入时,生成的分割结果无法根据具体类别进行调整,难以适应特定任务。
- ViT编码器的局限性:虽然已有研究尝试将SAM转化为U形网络结构,但这些工作大多基于传统的ViT编码器,其平面结构缺乏对多尺度特征的有效捕捉,导致在更复杂的分割任务中表现不佳。
- 参数调优效率低:由于SAM2的 Hiera 骨干网络参数巨大(如Hiera-L有214M个参数),进行完整的参数调优对设备资源要求较高,尤其是在内存有限的设备上。
拟解决的问题:
论文旨在解决以下几个问题:
- 如何将 SAM2 模型适配到各种具体的图像分割任务中,包括自然图像和医学图像分割,如伪装物体检测、显著性物体检测、海洋动物分割、镜像检测以及息肉分割等任务。
- 如何在不影响性能的前提下提高模型的参数调优效率,使其能够在内存受限的设备上进行训练。
- 如何构建一个高效且易于扩展的统一框架,以应对多种分割任务。
主要贡献:
- 提出了SAM2-UNet框架:该框架使用 SAM2 的 Hiera 骨干作为编码器,并结合经典的U形解码器架构。通过引入适配器模块(Adapter),能够实现高效的参数微调(参数更适合特定任务)。
- 展示了SAM2-UNet在多个任务上的强大性能:在伪装物体检测、显著性物体检测、海洋动物分割、镜像检测和息肉分割任务上,SAM2-UNet在18个公开数据集上的实验结果表明,该模型在五个基准上都优于现有的专用最先进方法。
- 提出了参数高效的微调方法:通过在 Hiera 编码器中加入适配器模块,模型能够在参数冻结的情况下高效地进行微调,减少内存占用。
- 消除了一些不必要的组件:论文移除了不必要的组件,如内存注意力、提示编码器和内存编码器,使得模型更简洁和高效。
创新点:
- 结合了 SAM2 的 Hiera 骨干与经典 U-Net 结构:论文提出了通过引入 Hiera 骨干来增强 U 形网络的分割能力,特别是 Hiera 的层次结构能够捕捉多尺度特征,克服了 ViT 平面结构的限制。
- 参数微调的高效性:通过适配器的引入,避免了对整个 Hiera 骨干进行完整参数调优的问题,实现了内存高效的微调方式。
- 广泛适用性:模型不仅能处理自然图像,还能应用于医学图像分割,具备极高的任务扩展性。
- 简化的架构设计:通过删减不必要的组件,保持了 U-Net 的简洁性,确保模型易于理解和使用。
总结来说,论文的贡献和创新体现在将 SAM2 的基础模型转化为一个高效、可扩展的分割框架,解决了现有方法在类不可知性、ViT编码器的局限性和参数调优效率低等问题。
Introduction
论文的第一部分引言(Section 1 Introduction)主要介绍了图像分割任务的背景、现有挑战以及本研究的动机和贡献,内容总结如下:
1.1 图像分割的重要性
图像分割在计算机视觉中具有重要地位,是视觉理解的基础任务之一。通过将图像划分为有意义的区域,图像分割为自然图像和医学图像中的多个下游任务提供了支持,例如:
- 伪装物体检测(Camouflaged Object Detection)
- 显著性物体检测(Salient Object Detection)
- 海洋动物分割(Marine Animal Segmentation)
- 镜像检测(Mirror Detection)
- 息肉分割(Polyp Segmentation)
这些任务分别应用于不同领域,但设计一个能统一处理多种分割任务的模型仍然是一个开放性挑战。
1.2 视觉基础模型的兴起
最近,视觉基础模型(Vision Foundation Models, VFMs)的发展为图像分割任务提供了新的可能性。这些模型在多个任务上取得了优异的性能,其中Segment Anything Model 1(SAM1)和后续的Segment Anything Model 2(SAM2)表现尤为突出。SAM2在SAM1的基础上改进,使用了更大的训练数据集和优化的架构设计,进一步提升了模型性能。
1.3 现有的局限性
虽然SAM2在通用任务上表现良好,但在特定的图像分割任务上仍然存在一些局限性:
- SAM2的分割结果类不可知,即没有提供手动提示时,无法生成类别特定的分割结果。这种设计在许多需要类别特定或任务特定的分割任务中表现不足。
- 因此,如何增强SAM2的适应性,并将其更好地应用于下游任务仍是一个亟待解决的研究问题。
1.4 现有改进方法
为了使SAM更好地适配下游任务,已有研究提出了多种方法:
- 参数高效微调:通过引入适配器,能够在不进行完整参数调优的情况下,实现任务特定的微调。
- 结合额外条件输入:如文本提示、上下文样本等,增强模型对不同任务的理解。
此外,受经典U-Net及其变种的启发,研究人员也尝试将SAM转化为U形架构,但由于SAM1中的ViT编码器结构过于简单,缺乏层次性,使得其在复杂任务中的表现受到限制。幸运的是,SAM2引入了层次化的Hiera骨干网络,为设计更强大的U形网络提供了新的可能性。
1.5 本文的贡献
基于上述背景,本文提出了SAM2-UNet,一个简单但有效的框架,专为各种图像分割任务设计。该方法的优点包括:
- 简单性:SAM2-UNet采用了经典的U形编码器-解码器架构,结构简单且易于扩展。
- 高效性:通过在编码器中插入适配器,实现了参数高效的微调,使模型能够在内存受限的设备上运行。
- 有效性:本文的实验表明,SAM2-UNet在多个公开数据集上均优于现有最先进的方法,展示了其在伪装物体检测、显著性物体检测、海洋动物分割、镜像检测和息肉分割等任务中的优异性能。
总结
引言部分概述了图像分割的重要性、现有基础模型的潜力及其局限性,并提出了本文的研究目标,即通过提出SAM2-UNet,构建一个强大、简单、且适用于多种任务的分割框架。引言也为接下来的模型设计和实验铺垫了理论基础。
Method
论文的第二部分(Section 2 Method)详细介绍了SAM2-UNet模型的整体架构设计及其关键组件,主要包括编码器、解码器、接收域块(RFBs)、适配器和损失函数等内容。以下是对该部分的详细总结:
2.1 模型总体架构
在图中的 Hiera Block 中,fire logo 和 ice logo 的确可以表示模型中参数的状态:
-
Fire logo:表示参数可以微调,也就是这些部分的参数是可以训练的。在这张图中,fire logo 出现在 Adapter 模块 上,意味着适配器模块中的参数是可调整的。通过适配器,模型可以在不改变Hiera骨干网络大量预训练参数的情况下,进行高效的微调。
-
Ice logo:表示参数是冻结的,即这些部分的参数在训练过程中不会更新。在图中,ice logo 出现在 Hiera Block 的核心模块(如 Attention 和 MLP)旁,意味着这些模块的参数是冻结的,通常保留使用预训练模型的权重,不进行进一步训练。
总结来说,fire logo 表示参数可以训练,ice logo 表示参数冻结不变。通过这种设计,SAM2-UNet 能够通过微调少量参数(适配器模块),在不同任务中实现性能的提升,而无需对整个大型预训练模型进行大规模的重新训练。这种方式有效地减少了计算资源的需求,同时保持了模型的强大表现力。
SAM2-UNet 是一个基于 U-Net 结构的分割模型。其编码器使用了来自 Segment Anything Model 2 (SAM2) 的Hiera 骨干网络,而解码器则采用了经典的 U 形设计。该模型的总体架构由四个主要组件组成:
- 编码器(Encoder)
- 解码器(Decoder)
- 接收域块(RFBs)(Receptive Field Blocks)
- 适配器(Adapters)
论文还展示了 SAM2-UNet 的简化示意图(如图 1 所示),描述了每个模块的具体功能及其在网络中的位置。
2.2 编码器
SAM2-UNet 的编码器采用了 SAM2 预训练的 Hiera 骨干网络。与 SAM1 中的 ViT 编码器不同,Hiera 具有层次化结构,更适合捕捉多尺度的特征,这对 U 形网络设计尤为关键。给定输入图像 I ∈ R 3 × H × W I \in R^{3 \times H \times W} I∈R3×H×W,其中 H H H 和 W W W 分别代表图像的高度和宽度,Hiera 输出四个层次化的特征 X i ∈ R C i × H /