COD论文笔记SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmen

最新推荐文章于 2025-03-07 15:18:29 发布

Wils0nEdwards

最新推荐文章于 2025-03-07 15:18:29 发布

阅读量4.6k

点赞数 18

分类专栏： COD论文学习文章标签：论文阅读计算机视觉深度学习

本文链接：https://blog.csdn.net/coldasice342/article/details/141933121

版权

2024年8月META团队在arXiv发布最新SAM2论文，稍早些时间其已经发布SAM2的项目代码。

目测SAM2作为backbone可以取得很好的效果，这个可以想一个创新点尽快实验。

这篇论文的主要动机、问题和创新点可以总结如下：

动机：

图像分割在视觉理解中扮演着至关重要的角色，应用广泛，涵盖自然图像和医学图像的多个领域。近年来，视觉基础模型（Vision Foundation Models，VFMs）在多个任务上取得了优异的性能，尤其是Segment Anything Model（SAM1）及其后继版本SAM2展示了强大的分割能力。然而，SAM2虽然具备先进的架构和大规模数据训练，但其生成的分割结果是类不可知的（class-agnostic），即没有提供手动提示时，SAM2不能很好地适应具体任务的需求。这限制了其在实际应用中的灵活性，尤其是在需要任务特定或类别特定分割的场景中。因此，论文的动机在于如何改进SAM2模型，使其在处理不同下游图像分割任务时更加灵活、适应性更强。

现有方法的不足：

类不可知的分割结果：SAM2在没有提示输入时，生成的分割结果无法根据具体类别进行调整，难以适应特定任务。
ViT编码器的局限性：虽然已有研究尝试将SAM转化为U形网络结构，但这些工作大多基于传统的ViT编码器，其平面结构缺乏对多尺度特征的有效捕捉，导致在更复杂的分割任务中表现不佳。
参数调优效率低：由于SAM2的 Hiera 骨干网络参数巨大（如Hiera-L有214M个参数），进行完整的参数调优对设备资源要求较高，尤其是在内存有限的设备上。

拟解决的问题：

论文旨在解决以下几个问题：

如何将 SAM2 模型适配到各种具体的图像分割任务中，包括自然图像和医学图像分割，如伪装物体检测、显著性物体检测、海洋动物分割、镜像检测以及息肉分割等任务。
如何在不影响性能的前提下提高模型的参数调优效率，使其能够在内存受限的设备上进行训练。
如何构建一个高效且易于扩展的统一框架，以应对多种分割任务。

主要贡献：

提出了SAM2-UNet框架：该框架使用 SAM2 的 Hiera 骨干作为编码器，并结合经典的U形解码器架构。通过引入适配器模块(Adapter)，能够实现高效的参数微调（参数更适合特定任务）。
展示了SAM2-UNet在多个任务上的强大性能：在伪装物体检测、显著性物体检测、海洋动物分割、镜像检测和息肉分割任务上，SAM2-UNet在18个公开数据集上的实验结果表明，该模型在五个基准上都优于现有的专用最先进方法。
提出了参数高效的微调方法：通过在 Hiera 编码器中加入适配器模块，模型能够在参数冻结的情况下高效地进行微调，减少内存占用。
消除了一些不必要的组件：论文移除了不必要的组件，如内存注意力、提示编码器和内存编码器，使得模型更简洁和高效。

创新点：

结合了 SAM2 的 Hiera 骨干与经典 U-Net 结构：论文提出了通过引入 Hiera 骨干来增强 U 形网络的分割能力，特别是 Hiera 的层次结构能够捕捉多尺度特征，克服了 ViT 平面结构的限制。
参数微调的高效性：通过适配器的引入，避免了对整个 Hiera 骨干进行完整参数调优的问题，实现了内存高效的微调方式。
广泛适用性：模型不仅能处理自然图像，还能应用于医学图像分割，具备极高的任务扩展性。
简化的架构设计：通过删减不必要的组件，保持了 U-Net 的简洁性，确保模型易于理解和使用。

总结来说，论文的贡献和创新体现在将 SAM2 的基础模型转化为一个高效、可扩展的分割框架，解决了现有方法在类不可知性、ViT编码器的局限性和参数调优效率低等问题。

Introduction

论文的第一部分引言（Section 1 Introduction）主要介绍了图像分割任务的背景、现有挑战以及本研究的动机和贡献，内容总结如下：

1.1 图像分割的重要性

图像分割在计算机视觉中具有重要地位，是视觉理解的基础任务之一。通过将图像划分为有意义的区域，图像分割为自然图像和医学图像中的多个下游任务提供了支持，例如：

伪装物体检测（Camouflaged Object Detection）
显著性物体检测（Salient Object Detection）
海洋动物分割（Marine Animal Segmentation）
镜像检测（Mirror Detection）
息肉分割（Polyp Segmentation）

这些任务分别应用于不同领域，但设计一个能统一处理多种分割任务的模型仍然是一个开放性挑战。

1.2 视觉基础模型的兴起

最近，视觉基础模型（Vision Foundation Models, VFMs）的发展为图像分割任务提供了新的可能性。这些模型在多个任务上取得了优异的性能，其中Segment Anything Model 1（SAM1）和后续的Segment Anything Model 2（SAM2）表现尤为突出。SAM2在SAM1的基础上改进，使用了更大的训练数据集和优化的架构设计，进一步提升了模型性能。

1.3 现有的局限性

虽然SAM2在通用任务上表现良好，但在特定的图像分割任务上仍然存在一些局限性：

SAM2的分割结果类不可知，即没有提供手动提示时，无法生成类别特定的分割结果。这种设计在许多需要类别特定或任务特定的分割任务中表现不足。
因此，如何增强SAM2的适应性，并将其更好地应用于下游任务仍是一个亟待解决的研究问题。

1.4 现有改进方法

为了使SAM更好地适配下游任务，已有研究提出了多种方法：

参数高效微调：通过引入适配器，能够在不进行完整参数调优的情况下，实现任务特定的微调。
结合额外条件输入：如文本提示、上下文样本等，增强模型对不同任务的理解。

此外，受经典U-Net及其变种的启发，研究人员也尝试将SAM转化为U形架构，但由于SAM1中的ViT编码器结构过于简单，缺乏层次性，使得其在复杂任务中的表现受到限制。幸运的是，SAM2引入了层次化的Hiera骨干网络，为设计更强大的U形网络提供了新的可能性。

1.5 本文的贡献

基于上述背景，本文提出了SAM2-UNet，一个简单但有效的框架，专为各种图像分割任务设计。该方法的优点包括：

简单性：SAM2-UNet采用了经典的U形编码器-解码器架构，结构简单且易于扩展。
高效性：通过在编码器中插入适配器，实现了参数高效的微调，使模型能够在内存受限的设备上运行。
有效性：本文的实验表明，SAM2-UNet在多个公开数据集上均优于现有最先进的方法，展示了其在伪装物体检测、显著性物体检测、海洋动物分割、镜像检测和息肉分割等任务中的优异性能。

总结

引言部分概述了图像分割的重要性、现有基础模型的潜力及其局限性，并提出了本文的研究目标，即通过提出SAM2-UNet，构建一个强大、简单、且适用于多种任务的分割框架。引言也为接下来的模型设计和实验铺垫了理论基础。

Method

论文的第二部分（Section 2 Method）详细介绍了SAM2-UNet模型的整体架构设计及其关键组件，主要包括编码器、解码器、接收域块（RFBs）、适配器和损失函数等内容。以下是对该部分的详细总结：

2.1 模型总体架构

在图中的 Hiera Block 中，fire logo 和 ice logo 的确可以表示模型中参数的状态：

Fire logo：表示参数可以微调，也就是这些部分的参数是可以训练的。在这张图中，fire logo 出现在 Adapter 模块 上，意味着适配器模块中的参数是可调整的。通过适配器，模型可以在不改变Hiera骨干网络大量预训练参数的情况下，进行高效的微调。
Ice logo：表示参数是冻结的，即这些部分的参数在训练过程中不会更新。在图中，ice logo 出现在 Hiera Block 的核心模块（如 Attention 和 MLP）旁，意味着这些模块的参数是冻结的，通常保留使用预训练模型的权重，不进行进一步训练。

总结来说，fire logo 表示参数可以训练，ice logo 表示参数冻结不变。通过这种设计，SAM2-UNet 能够通过微调少量参数（适配器模块），在不同任务中实现性能的提升，而无需对整个大型预训练模型进行大规模的重新训练。这种方式有效地减少了计算资源的需求，同时保持了模型的强大表现力。
在这里插入图片描述

SAM2-UNet 是一个基于 U-Net 结构的分割模型。其编码器使用了来自 Segment Anything Model 2 (SAM2) 的Hiera 骨干网络，而解码器则采用了经典的 U 形设计。该模型的总体架构由四个主要组件组成：

编码器（Encoder）
解码器（Decoder）
接收域块（RFBs）（Receptive Field Blocks）
适配器（Adapters）

论文还展示了 SAM2-UNet 的简化示意图（如图 1 所示），描述了每个模块的具体功能及其在网络中的位置。

2.2 编码器

SAM2-UNet 的编码器采用了 SAM2 预训练的 Hiera 骨干网络。与 SAM1 中的 ViT 编码器不同，Hiera 具有层次化结构，更适合捕捉多尺度的特征，这对 U 形网络设计尤为关键。给定输入图像 $\in R^{3 \times H \times W}$ ，其中 $H$ 和 $W$ 分别代表图像的高度和宽度，Hiera 输出四个层次化的特征

最低0.47元/天解锁文章