TS-SAM:针对SAM模型的下游微调新方法

TS-SAM:

Fine-Tuning Segment-Anything Model for Downstream Tasks

GitHub - maoyangou147/TS-SAM

https://arxiv.org/pdf/2408.01835

Introduction

1. Segment-Anything Model(SAM)的背景

  • 预训练与通用性:SAM是一个在超过1100万张图像上预训练的大型视觉模型,具有强大的通用性和泛化能力。
  • 研究兴趣:由于其广泛的适用性和强大的性能,SAM吸引了大量研究者的兴趣。

2. SAM在下游任务中的挑战

  • 性能不足:尽管SAM在通用视觉任务上表现出色,但在一些具体的下游任务(如伪装对象检测COD、阴影检测、显著对象检测SOD等)中,其性能并不理想。
  • 性能差距:现有的基于Adapter的微调方法(如SAM-Adapter和SSOM)虽然在一定程度上提升了SAM在下游任务中的性能,但与专门为这些任务设计的领域特定模型相比,仍存在显著的性能差距。

3. 研究动机

  • 缩小性能差距:为了缩小微调后的SAM与领域特定模型之间的性能差距,作者们提出了Two-Stream SAM(TS-SAM)方法。
  • 统一微调策略:TS-SAM旨在通过设计一种统一的微调策略,提升SAM在不同下游任务中的有效性。

4. 方法概述

  • 侧网络引入:受参数高效微调(PEFT)中侧网络思想的启发,作者们首次将侧网络引入SAM的微调中,并提出了两流侧网络结构,以有效提取SAM编码器中的特征。
  • 模块设计
    • Convolutional Side Adapter(CSA):设计了一个轻量级的卷积侧适配器,用于从SAM编码器中提取并适应下游任务的特征。
    • Multi-Scale Refinement Module(MRM):针对分割任务的特点,设计了多尺度细化模块,以提取更精细的图像位置特征。
    • Feature Fusion Decoder(FFD):设计了特征融合解码器,用于在解码过程中整合不同尺度的特征,生成更精细的分割结果。

5. 贡献总结

  • 侧网络引入:首次将侧网络引入SAM的微调中,提出了两流侧网络结构。
  • 模块创新:针对分割任务设计了MRM和FFD模块,通过高分辨率层次特征和充分融合,实现精细分割。
  • 性能提升:在多个公开数据集上的实验结果表明,TS-SAM显著优于现有的SAM微调方法,并与领域特定模型相比具有竞争力。

6. 实验验证

  • 数据集:在来自三个任务的十个公开数据集上进行了实验,包括COD、阴影检测和SOD任务。
  • 实验结果:实验结果表明,TS-SAM不仅显著优于SAM-Adapter和SSOM,而且与领域特定模型相比具有竞争力。

Method

1. 总体架构

TS-SAM的整体架构如图2(a)所示,它主要包括三个核心部分:

  • Segment-Anything Model (SAM) 图像编码器:作为预训练的大型视觉模型,SAM的图像编码器被用作主干网络。
  • 卷积侧适配器(Convolutional Side Adapter, CSA):这是引入的轻量级模块,用于从SAM的图像编码器中提取特征并适应下游任务。
  • 多尺度细化模块(Multi-Scale Refinement Module, MRM):设计用于从图像中提取更详细的特征,特别是在分割任务中需要描述物体边缘等详细特征时。
2. 卷积侧适配器(CSA)

CSA的设计灵感来自参数高效微调(PEFT)中的适配器技术,但进行了简化和修改,以更有效地从SAM的图像编码器中提取特征。如图2(b)所示,CSA由两个1x1卷积模块组成:

  • 第一个1x1卷积:扩展压缩后的特征到与SAM图像编码器相同的特征维度,并与SAM图像编码器的输出特征嵌入合并。
  • 第二个1x1卷积:压缩合并后的特征,同时减少适配器的参数量。

通过这种方式,CSA能够有效地从SAM图像编码器中提取特征,并将其调整到下游任务的需求。

3. 多尺度细化模块(MRM)

MRM旨在从图像中提取更详细的特征,特别是考虑到SAM图像编码器在patch嵌入过程中将图像下采样了16倍,这可能导致难以提取目标位置特征。如图2(c)所示,MRM通过上采样特征嵌入,并使用轻量级门控单元连续合并来自SAM图像编码器较低到较高层的特征,从而收集更丰富的图像细节特征。

4. 特征融合解码器(Feature Fusion Decoder, FFD)

在解码过程中,TS-SAM没有使用SAM的掩码解码器,因为该解码器需要诸如点或框之类的提示来实现良好结果,并且这些提示在下游任务中可能不可用。相反,TS-SAM设计了一个特征融合解码器(FFD),用于在解码过程中整合不同尺度的特征,从而生成更精细的分割结果。

5. 实现细节
  • 模型版本:实现了两个版本的TS-SAM:TS-SAM B(使用ViT-B版本的SAM图像编码器)和TS-SAM H(使用ViT-H版本的SAM图像编码器)。
  • 训练设置:所有训练都在PyTorch框架中进行,使用4个NVIDIA A40 GPU。训练时只微调了少量参数(对于ViT-h版本,仅需要29.44M个可训练参数,占总模型参数量的4.4%)。

实验

1. 数据集

文件报告了在三个具有挑战性的下游任务上进行的实验,包括伪装对象检测(COD)、阴影检测和显著对象检测(SOD),共使用了十个公开数据集:

  • COD: 使用了四个常用数据集(CAMO, COD10K, CHAMELEON, NC4K)。
  • 阴影检测: 使用了ISTD数据集。
  • SOD: 使用了五个数据集(DUTS, ECSSD, OMRON, HKU-IS, PASCAL-S)。
2. 实现细节
  • 硬件与框架: 实验在PyTorch框架中实现,并使用了4个NVIDIA A40 GPU进行训练。
  • 模型版本: 训练了两个版本的模型:TS-SAM B(使用ViT-B版本的SAM图像编码器)和TS-SAM H(使用ViT-H版本的SAM图像编码器)。
  • 训练设置: 对于COD任务,将CAMO和COD10K的训练样本组合进行模型训练,并在每个数据集的测试样本上进行测试。对于SOD任务,使用DUTS训练集进行训练,并在其余数据集上进行测试。
3. 实验结果
3.1 伪装对象检测(COD)

在四个COD数据集上的实验结果(表I)表明,TS-SAM不仅显著优于原始的SAM和最近提出的SAM-Adapter,而且与最先进的领域特定模型相比也取得了竞争性的性能。特别是在COD10K和NC4K这两个最大的数据集上,TS-SAM在大多数指标上达到了最佳结果。

3.2 阴影检测

在ISTD数据集上的实验结果(表II)显示,TS-SAM在阴影检测任务上也表现出了显著的性能提升,超过了SAM-Adapter和多个最先进的模型。

3.3 显著对象检测(SOD)

在五个SOD数据集上的实验结果(表III)表明,TS-SAM在MAE度量上显著优于SSOM,并且在与最先进的领域特定模型相比时,也取得了竞争性的性能。

4. 消融实验

为了验证所提出模块的有效性,进行了消融实验(表IV)。实验结果表明:

  • 单独使用Convolutional Side Adapter(CSA)或Multi-Scale Refinement Module(MRM)时,模型性能均有所提升。
  • 单独使用Feature Fusion Decoder(FFD)时,模型性能提升不明显,但与其他模块结合使用时,性能显著提升。
  • 当所有三个模块结合使用时,模型在所有四个COD数据集上均取得了最佳性能。

5. 模型效率

TS-SAM在仅微调4.4%的参数的情况下,达到了与领域特定模型相当的性能。这表明TS-SAM在存储和计算成本方面具有较高的效率。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值