TS-SAM：针对SAM模型的下游微调新方法

Phoenixtree_DongZhao

已于 2024-08-11 07:14:04 修改

阅读量1.6k

点赞数 31

分类专栏： Large Model Transformer Multi-modal 文章标签：大模型 SAM

于 2024-08-11 07:12:44 首次发布

本文链接：https://blog.csdn.net/u014546828/article/details/141100635

版权

Transformer 同时被 3 个专栏收录

55 篇文章

订阅专栏

Large Model

52 篇文章

订阅专栏

Multi-modal

15 篇文章

订阅专栏

TS-SAM:

Fine-Tuning Segment-Anything Model for Downstream Tasks

GitHub - maoyangou147/TS-SAM

https://arxiv.org/pdf/2408.01835

Introduction

1. Segment-Anything Model（SAM）的背景

预训练与通用性：SAM是一个在超过1100万张图像上预训练的大型视觉模型，具有强大的通用性和泛化能力。
研究兴趣：由于其广泛的适用性和强大的性能，SAM吸引了大量研究者的兴趣。

2. SAM在下游任务中的挑战

性能不足：尽管SAM在通用视觉任务上表现出色，但在一些具体的下游任务（如伪装对象检测COD、阴影检测、显著对象检测SOD等）中，其性能并不理想。
性能差距：现有的基于Adapter的微调方法（如SAM-Adapter和SSOM）虽然在一定程度上提升了SAM在下游任务中的性能，但与专门为这些任务设计的领域特定模型相比，仍存在显著的性能差距。

3. 研究动机

缩小性能差距：为了缩小微调后的SAM与领域特定模型之间的性能差距，作者们提出了Two-Stream SAM（TS-SAM）方法。
统一微调策略：TS-SAM旨在通过设计一种统一的微调策略，提升SAM在不同下游任务中的有效性。

4. 方法概述

侧网络引入：受参数高效微调（PEFT）中侧网络思想的启发，作者们首次将侧网络引入SAM的微调中，并提出了两流侧网络结构，以有效提取SAM编码器中的特征。
模块设计：
- Convolutional Side Adapter（CSA）：设计了一个轻量级的卷积侧适配器，用于从SAM编码器中提取并适应下游任务的特征。
- Multi-Scale Refinement Module（MRM）：针对分割任务的特点，设计了多尺度细化模块，以提取更精细的图像位置特征。
- Feature Fusion Decoder（FFD）：设计了特征融合解码器，用于在解码过程中整合不同尺度的特征，生成更精细的分割结果。

5. 贡献总结

侧网络引入：首次将侧网络引入SAM的微调中，提出了两流侧网络结构。
模块创新：针对分割任务设计了MRM和FFD模块，通过高分辨率层次特征和充分融合，实现精细分割。
性能提升：在多个公开数据集上的实验结果表明，TS-SAM显著优于现有的SAM微调方法，并与领域特定模型相比具有竞争力。

6. 实验验证

数据集：在来自三个任务的十个公开数据集上进行了实验，包括COD、阴影检测和SOD任务。
实验结果：实验结果表明，TS-SAM不仅显著优于SAM-Adapter和SSOM，而且与领域特定模型相比具有竞争力。

Method

1. 总体架构

TS-SAM的整体架构如图2(a)所示，它主要包括三个核心部分：

Segment-Anything Model (SAM) 图像编码器：作为预训练的大型视觉模型，SAM的图像编码器被用作主干网络。
卷积侧适配器（Convolutional Side Adapter, CSA）：这是引入的轻量级模块，用于从SAM的图像编码器中提取特征并适应下游任务。
多尺度细化模块（Multi-Scale Refinement Module, MRM）：设计用于从图像中提取更详细的特征，特别是在分割任务中需要描述物体边缘等详细特征时。

2. 卷积侧适配器（CSA）

CSA的设计灵感来自参数高效微调（PEFT）中的适配器技术，但进行了简化和修改，以更有效地从SAM的图像编码器中提取特征。如图2(b)所示，CSA由两个1x1卷积模块组成：

第一个1x1卷积：扩展压缩后的特征到与SAM图像编码器相同的特征维度，并与SAM图像编码器的输出特征嵌入合并。
第二个1x1卷积：压缩合并后的特征，同时减少适配器的参数量。

通过这种方式，CSA能够有效地从SAM图像编码器中提取特征，并将其调整到下游任务的需求。

3. 多尺度细化模块（MRM）

MRM旨在从图像中提取更详细的特征，特别是考虑到SAM图像编码器在patch嵌入过程中将图像下采样了16倍，这可能导致难以提取目标位置特征。如图2(c)所示，MRM通过上采样特征嵌入，并使用轻量级门控单元连续合并来自SAM图像编码器较低到较高层的特征，从而收集更丰富的图像细节特征。

4. 特征融合解码器（Feature Fusion Decoder, FFD）

在解码过程中，TS-SAM没有使用SAM的掩码解码器，因为该解码器需要诸如点或框之类的提示来实现良好结果，并且这些提示在下游任务中可能不可用。相反，TS-SAM设计了一个特征融合解码器（FFD），用于在解码过程中整合不同尺度的特征，从而生成更精细的分割结果。

5. 实现细节

模型版本：实现了两个版本的TS-SAM：TS-SAM B（使用ViT-B版本的SAM图像编码器）和TS-SAM H（使用ViT-H版本的SAM图像编码器）。
训练设置：所有训练都在PyTorch框架中进行，使用4个NVIDIA A40 GPU。训练时只微调了少量参数（对于ViT-h版本，仅需要29.44M个可训练参数，占总模型参数量的4.4%）。

实验

1. 数据集

文件报告了在三个具有挑战性的下游任务上进行的实验，包括伪装对象检测（COD）、阴影检测和显著对象检测（SOD），共使用了十个公开数据集：

COD: 使用了四个常用数据集（CAMO, COD10K, CHAMELEON, NC4K）。
阴影检测: 使用了ISTD数据集。
SOD: 使用了五个数据集（DUTS, ECSSD, OMRON, HKU-IS, PASCAL-S）。

2. 实现细节

硬件与框架: 实验在PyTorch框架中实现，并使用了4个NVIDIA A40 GPU进行训练。
模型版本: 训练了两个版本的模型：TS-SAM B（使用ViT-B版本的SAM图像编码器）和TS-SAM H（使用ViT-H版本的SAM图像编码器）。
训练设置: 对于COD任务，将CAMO和COD10K的训练样本组合进行模型训练，并在每个数据集的测试样本上进行测试。对于SOD任务，使用DUTS训练集进行训练，并在其余数据集上进行测试。

3. 实验结果

3.1 伪装对象检测（COD）

在四个COD数据集上的实验结果（表I）表明，TS-SAM不仅显著优于原始的SAM和最近提出的SAM-Adapter，而且与最先进的领域特定模型相比也取得了竞争性的性能。特别是在COD10K和NC4K这两个最大的数据集上，TS-SAM在大多数指标上达到了最佳结果。

3.2 阴影检测

在ISTD数据集上的实验结果（表II）显示，TS-SAM在阴影检测任务上也表现出了显著的性能提升，超过了SAM-Adapter和多个最先进的模型。

3.3 显著对象检测（SOD）

在五个SOD数据集上的实验结果（表III）表明，TS-SAM在MAE度量上显著优于SSOM，并且在与最先进的领域特定模型相比时，也取得了竞争性的性能。

4. 消融实验

为了验证所提出模块的有效性，进行了消融实验（表IV）。实验结果表明：

单独使用Convolutional Side Adapter（CSA）或Multi-Scale Refinement Module（MRM）时，模型性能均有所提升。
单独使用Feature Fusion Decoder（FFD）时，模型性能提升不明显，但与其他模块结合使用时，性能显著提升。
当所有三个模块结合使用时，模型在所有四个COD数据集上均取得了最佳性能。