分割大模型论文阅读——Ladder Fine-tuning approach for SAM integrating complementary network

期刊分析

期刊名: ArXiv
期刊: 2023

其余信息: 代码
在这里插入图片描述

摘要

最近,引入了基础模型来演示计算机视觉领域的各种任务。这些模型(例如分割任意模型(SAM))是使用庞大数据集训练的通用模型。目前,正在进行的研究重点是探索这些通用模型在特定领域(例如医学成像)的有效利用。然而,在医学成像中,由于隐私问题和其他因素,训练样本的缺乏给这些广义模型应用于医学图像分割任务带来了重大挑战。为了解决这个问题,对这些模型进行有效的微调对于确保其最佳利用率至关重要。在本研究中,我们建议将互补的卷积神经网络 (CNN) 与标准 SAM 网络结合起来进行医学图像分割。为了减轻微调大型基础模型的负担并实现具有成本效益的训练方案,我们只专注于微调附加的 CNN 网络和 SAM 解码器部分。该策略显着减少了训练时间,并在公开可用的数据集上取得了有竞争力的结果。该代码可从 https://github.com/11yxk/SAM-LST 获取。


引言

医学图像分割在医疗保健中发挥着至关重要的作用。它的目的是使用各种医学成像模式(例如 X 射线、CT 扫描、MRI 扫描或超声图像)来分割各种身体器官,包括肝脏、大脑和病变。因此,它可以极大地帮助临床医生进行诊断、治疗计划和治疗后监测。在过去的十年中,卷积神经网络(CNN)在广泛的计算机视觉任务中变得流行。

最近,Long 等人。 [1]提出了全卷积网络(FCN)。这种方法可以处理任意大小的输入图像,并通过用卷积层替换全连接层来生成分割结果。 U-Net [2] 由 Ronneberger 等人开发,是医学图像分割中使用最广泛的架构。它包括一个编码器和一个解码器,在相应层之间具有跳跃连接以保留重要特征。编码器路径对输入图像进行下采样,同时捕获高级特征。而解码器路径执行特征图的上采样来预测分割结果。周等人。 [3]通过引入嵌套跳跃连接方案扩展了 U-Net 架构,该方案允许捕获多尺度上下文信息并更好地集成不同级别的特征。陈等人。 [4]提出了Deeplab系列模型,其中包括空洞/扩张卷积运算和全连接条件随机场的概念。

最近,Transformer [5]被引入计算机视觉(CV)领域,它最初是为自然语言处理(NLP)设计的。与传统的 CNN 架构相比,Transformer 可以捕获长程依赖关系。多索维茨基等人。 [6]提出了采用自注意力机制进行图像分类的视觉变换器(ViT)。接下来,陈等人。 [7]提出了 TransUNet,它采用 ViT 进行分割任务。 TransUNet 联合利用 CNN 和 ViT 从输入图像中获取局部和全局上下文特征。唐等人。 [8]提出了Swin UNETR,它采用ViT模型作为主要编码器进行特征提取。周等人。 [9]提出了一个纯Transformer框架,在编码器和解码器部分都使用ViT。曹等人。 [10]提出了采用Swintransformer [11]架构进行分割任务的Swin-UNet。

如今,基础模型[12]已经在NLP领域展现了其能力。目前,分段任意模型(SAM)[13]被引入用于各种计算机视觉任务。在 SAM 中,使用基础模型进行即时学习的概念使得能够在未见过的图像上执行多项任务。它允许通过有效的即时工程“one-shot”转移到各种任务。虽然将 SAM 模型直接应用于特定领域的任务(例如医学图像分割),通常不会产生令人满意的性能。尽管 SAM 使用超过 1100 万张图像和 10 亿个真实掩模进行训练,但由于医学图像与真实世界图像相比具有独特的特征,其在医学图像分割中的应用提出了挑战。此外,医疗数据的稀缺也是微调 SAM 的一个主要问题。因此,针对医学图像数据集有效地微调 SAM 至关重要。

如今,已经引入了各种微调方法来优化不同领域的 SAM [14]、[15]、[16]。一些方法对 SAM 网络执行基于适配器的微调。然而,这些基于适配器的方法通常需要大量的精力和资源成本来训练模型。与之前的研究不同,我们的工作引入了一种新颖的方法,将额外的 CNN 结合起来作为 SAM 架构中的补充编码器。我们的方法从 Transformers 的 Ladder-Side Tuning (LST) 网络中汲取灵感 [17]。我们提出的方法能够灵活集成额外的网络,同时避免整个大型模型(即 SAM 编码器)上的反向传播,从而加快训练速度并降低资源成本。根据具体任务要求,额外的 CNN 网络可以轻松地替换为其他设计,包括 Transformer。我们将预训练的 ResNet18 [18] 作为附加网络。在训练期间,仅微调附加 CNN 和解码器部分的参数,同时保持原始 SAM 编码器参数冻结。我们的贡献可以总结如下:

  1. 我们建议结合一个额外的 CNN 来微调 SAME,特别是在医学图像分割任务上。
  2. 所提出的方法提供了设计额外网络的灵活性,同时通过避免整个模型的反向传播来最小化资源成本。
  3. 与公开的多器官分割数据集上最先进的方法相比,我们的方法在不使用任何提示的情况下取得了有竞争力的结果。

相关工作

医学图像分割

准确可靠的医学图像分割对于辅助医学诊断至关重要。在过去的几年里,人们提出了许多分割方法。基于 CNN 的网络在这项任务中尤其取得了显着的成功 [2]、[3]、[4]。最近,还提出了一些先进的基于 Transformer 的网络[8]、[9]、[10],在这项任务中实现了新的里程碑。尽管医学图像分割取得了重大进展,但由于数据可用性有限以及临床专家注释数据的要求等因素,它仍然是一项具有挑战性的任务。这些因素通常会导致模型的泛化能力较差。

基础模型

基础模型是指在广泛的数据上进行训练的模型,可以适应广泛的下游任务[12]。这种范式通常包含一些其他技术,例如自监督学习、迁移学习和即时学习。基础模型的一个例子是生成预训练 Transformer (GPT) 系列,这些模型是根据来自各种来源的大量文本数据进行预训练的。这些模型为自然语言处理(NLP)的进步做出了重大贡献。具体来说,GPT-3 [19]是大型语言模型(LLM)之一,拥有1750亿个参数,可以应用于包括翻译、问答和完形填空任务在内的广泛任务。另一项值得注意的工作是对比语言图像预训练(CLIP)[20],它采用了包含配对图像及其相应文本描述的大型数据集。 CLIP可以根据给定的文本提示有效地检索图像,在图像分类、图像生成等方面有很多应用。这些基础模型已经实现了最先进的性能。这些模型在各个领域都有巨大的未来发展方向。

参数高效的微调

尽管基础模型取得了显着的成就,但它们仍然面临一些局限性,例如由于参数数量庞大,需要大量的标记数据进行训练和大量的计算资源。为了减少大量的计算成本,通过训练现有模型的一小组参数或训练架构中新添加的参数来引入参数高效微调(PEFT)[21]。霍尔斯比等人。 [22]建议在原始基础模型中添加一个称为“适配器”的小子网络。莱斯特等人。 [23]建议将可训练的张量添加到原始模型输入中。宋等人。 [17]引入了一种新颖的梯边调整(LST)范例,它仅微调原始模型旁边并入的小型 Transformers 网络。在这种架构设计中,仅更新新合并网络的参数以节省计算成本。本-扎肯等人。 [24]提出只训练原始网络的偏差,这也是一种简单有效的方法。一般来说,基于 PEFT 的方法是 GPU 友好的,即使计算资源有限,也允许为各种下游任务使用基础模型。


方法

在这里插入图片描述
在这里插入图片描述

分割任何模型

分割任意模型(SAM)[13]是分割任务中基础模型的首次尝试。 SAM由三个部分组成,即图像编码器、提示编码器和掩模解码器。图像编码器采用 MAE [25] 预训练的 ViT 网络 [6] 来提取图像特征。提示编码器支持四种类型的提示输入:点、框、文本和蒙版。点和框嵌入位置编码 [26],而文本嵌入来自 CLIP [20] 的文本编码器。使用卷积运算嵌入掩模。掩码解码器旨在以轻量级方式映射图像嵌入和提示嵌入。这两种类型的嵌入使用交叉注意模块进行交互,使用一种嵌入作为查询,另一种嵌入作为键和值向量。最后,转置卷积用于对特征进行上采样。掩码解码器能够生成多个结果,因为提供的提示可能不明确。默认输出数量设置为三个。值得一提的是,图像编码器对每个输入图像仅提取一次图像特征。之后,轻量级提示编码器和掩码解码器可以根据网络浏览器中的不同输入提示与用户实时交互。 SAM 使用超过 1100 万张图像和 1B 个掩模进行训练。实验结果证明了其优越的零样本迁移能力。正如其名称所暗示的,该模型几乎可以分割任何东西,即使是以前从未见过的情况(未见过的测试样本)。

使用 SAM 进行梯形图调整

在这里插入图片描述
在这里插入图片描述


实验

在这里插入图片描述

数据集

我们使用 Synapse 数据集进行评估,这是 MICCAI 2015 多图集腹部标记挑战赛的公开多器官分割数据集。它包括 30 次腹部 CT 扫描。继之前的工作[7]之后,总共使用18个案例进行训练,12个案例用于测试。我们以 Dice 相似系数 (DSC) 和 95% Hausdorff 距离 (HD95) 形式报告 8 个腹部器官(即主动脉、胆囊、脾脏、左肾、右肾、肝脏、胰腺、脾脏、胃)的结果。

实施细节

输入图像分辨率设置为224×224。继之前的工作[15]之后,我们使用随机旋转和翻转操作来进行数据增强。我们使用 ViT-B SAM 模型作为基础骨干模型。我们不对 SAM 编码器和提示编码器进行微调。虽然我们只微调 SAM 解码器的“output upscaling”部分以避免过度拟合。集成的 CNN 编码器在 PyTorch Torchvision 库提供的 ImageNet 上进行预训练。该框架使用 Adam 优化器进行训练,批量大小为 24,历时 200 个周期。学习率设置为0.001。预热策略应用了 250 次迭代。实验使用两块RTX 3090显卡进行。

实验结果

表 I 报告了实验结果以及与其他最先进方法的比较。我们提出的方法实现了 79.45% DSC 和 35.35mm HD95 分数。我们还观察到可学习权重参数的值为 0.44。我们的方法取得了有竞争力的分数,同时超越了大多数最先进的方法。部分分割结果如图3所示。然而,可以修改集成 CNN 编码器和可学习权重参数的设计来分析和评估所提出方法的性能。我们相信,利用 Transformer 或其他有效的网络设计将产生更高的性能。未来,我们将探索先进的设计选择,以达到最佳效果。

消融实验

在这里插入图片描述

我们的消融研究旨在评估 CNN 编码器与 SAM 编码器集成的有效性。表格 II 表明,在没有针对医学图像进行微调的情况下,SAM 模型的 Dice Score 仅为 1.73%。需要注意的是,在这次训练和评估过程中没有使用任何提示,导致由于直接应用广义模型而导致得分较低。通过对整个 SAM 进行微调方法,精度提高到 58.97 Dice 分数。同样,当 CNN 编码器与 SAM 解码器模块结合使用时,性能仍保持在 78.05 Dice 分数。这凸显了对有效微调方法的需求。然而,通过将 CNN 编码器与 SAM 网络集成并利用**“learnable gate”**(权重参数),准确度显着提高至 79.45 Dice 分数。此外,我们还观察到训练时间显着减少,与其他微调方法相比减少了约 30% 至 40% [14]、[15]、[16]。我们提出的方法在资源利用方面非常具有成本效益。
在这里插入图片描述


总结

我们为大型基础模型(特别是 SAM)引入了稳健且灵活的微调策略。我们提出的集成 CNN 编码器同时采用可学习权重参数的方法取得了显着的结果。这种方法为计算机视觉中新的微调策略提供了途径。此外,我们提出的方法最大限度地减少了资源利用率并减少了培训时间。未来,我们的目标是探索更多的微调方法来提高性能。


可借鉴参考

  1. 阅读
    T. Chen, L. Zhu, C. Ding, R. Cao, S. Zhang, Y. Wang, Z. Li, L. Sun, P. Mao, and Y. Zang, “Sam fails to segment anything?–sam-adapter: Adapting sam in underperformed scenes: Camouflage, shadow, and more,” arXiv preprint arXiv:2304.09148, 2023.

  2. 阅读LST
    Y.-L. Sung, J. Cho, and M. Bansal, “Lst: Ladder side-tuning for parameter and memory efficient transfer learning,” arXiv preprint arXiv:2206.06522, 2022.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Philo`

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值