ECCV 2024 | 卷起来了！AnythingI-MedSAM：基于SAM的隐式医学图像分割-CSDN博客

关注下方“PaperAccepted”卡片，每天获取前沿论文解读

论文信息

题目：I-MedSAM: Implicit Medical Image Segmentation with Segment Anything

I-MedSAM：基于SAM的隐式医学图像分割

作者：Xiaobao Wei, Jiajun Cao, Yizhu Jin, Ming Lu, Guangyu Wang, Shanghang Zhang

原文链接：https://arxiv.org/abs/2311.17081

源码：https://github.com/ucwxb/I-MedSAM

论文创新点

提出I-MedSAM模型：作者提出了一种新颖的方法I-MedSAM，结合了SAM和连续表示的优势，以增强跨领域能力和实现精确的边界描绘。
设计频率适配器：作者设计了一种新颖的频率适配器，利用高频信息增强特征，从而准确分割边界。
引入粗到细INR解码器：作者提出了一种新颖的粗到细INR解码器，结合不确定性引导的采样（UGS）策略，学习从特征和坐标到分割输出的映射。
详细评估I-MedSAM：作者对I-MedSAM在2D医学图像分割上的详细评估表明，I-MedSAM优于最先进的连续和离散方法，并且在尺度和领域转移方面表现出鲁棒性。

摘要

随着深度神经网络（DNNs）的发展，许多努力已经致力于处理医学图像分割。传统方法如nnUNet在单个数据集上训练特定的分割模型。最近提出了许多方法来适应基础的Segment Anything Model（SAM）用于医学图像分割。然而，它们仍然专注于离散表示来生成像素级预测，这在空间上不够灵活，且难以扩展到更高分辨率。相比之下，隐式方法学习连续表示进行分割，这对医学图像分割至关重要。本文提出了I-MedSAM，它结合了连续表示和SAM的优势，以获得更好的跨领域能力和准确的边界描绘。由于医学图像分割需要预测详细的分割边界，我们设计了一种新颖的适配器，在参数高效微调（PEFT）过程中增强SAM特征的高频信息。为了将SAM特征和坐标转换为连续的分割输出，我们利用隐式神经表示（INR）来学习隐式分割解码器。我们还提出了一种不确定性引导的采样策略，以高效学习INR。在2D医学图像分割任务上的广泛评估表明，我们提出的方法仅用1.6M可训练参数就优于现有的离散和隐式方法。

关键字

医学图像分割 · 隐式神经表示 · Segment Anything

3 方法

在本节中，详细阐述I-MedSAM的流程。然后，解释I-MedSAM中引入的新设计。

3.2 整体流程

如图2所示，I-MedSAM包括两个主要部分。第一部分集成了带有适配器的图像编码器，形成，以及一个提示编码器，遵循SAM的设计。具体来说，考虑到频域在分割边界表示中的重要作用，设计了一种频率适配器用于提取频率特征。以医学图像和提示边界框为输入，从空间和频域中提取多尺度特征。在涉及跨分辨率的场景中，需要将提取的特征从源分辨率插值到目标分辨率以实现分割输出。第二部分是隐式分割解码器Dec，由两个堆叠的INRs组成：一个“粗略”Dec_c，具有浅层，一个“精细”Dec_f，具有深层。通常，Dec_c生成粗略的分割图，Dec_f在采样点上进行细化。这些点的选择由通过MC-Dropout和Top-K算法评估的分割预测的不确定性决定。以下部分将详细解释这两个部分。

3.3 医学图像编码器

在本节中，作者介绍了集成到SAM中的频率适配器和低秩适配器，以提取空间和频域中的特征。

频率适配器。离散傅里叶变换（DFT）是一种将图像转换为频域的常用且有效的方法。在实践中，快速傅里叶变换（FFT）用于高效计算DFT，的频谱表示可以表示为：

随后，可以分别获得的幅度和相位频谱。实验结果表明，幅度频谱比相位频谱表现出更优越的表示能力。因此，作者默认使用幅度频谱作为提出的频率适配器（FA）。如图3所示，单个FA包括一个线性降投影层、一个GELU激活层和一个线性升投影层。总共使用n个FA实例作为序列，对应于的Vision Transformer（ViT）块的数量。

低秩适配器。与微调图像编码器中的所有参数不同，作者利用低秩适配器（LoRA）更新一小部分参数，以适应医学图像，如图3所示。给定编码的令牌序列，使用投影层生成结果令牌序列，表示为。LoRA建议对的调整应逐步且一致。它建议利用低秩近似和来表示这一逐步更新，可以表示为：

由于多头注意机制决定了关注的区域，因此将LoRA应用于冻结的查询、键或值的投影层以影响注意力得分是合理的。作者注意到，当LoRA应用于查询和值投影层时，I-MedSAM表现更好，可以表示为：

其中，、和是来自SAM图像编码器的冻结投影层，、、、是可训练的LoRA参数。

3.4 隐式分割解码器

在本节中，作者介绍了一种粗到细的隐式神经表示，结合不确定性引导的采样（UGS）策略，将编码器的特征解码为目标分辨率下的分割图。

粗到细隐式神经表示。给定来自图像编码器和提示编码器的特征，作者将它们从源分辨率插值到目标分辨率，并与坐标连接。这些坐标在目标分辨率下生成，并归一化到。为了应对直接使用输入坐标可能导致的偏置学习，作者使用高频位置编码函数将坐标编码到更高维空间，定义为：

在实验中，超参数L设置为10。编码坐标、来自图像和提示编码器的编码特征连接后输入解码器：

这里，和分别表示输入医学图像和对应的粗略边界框提示。函数Interp指基于双线性算法的插值函数，用于将编码特征从源分辨率插值到目标分辨率，与编码坐标对齐。

受NeRF启发，作者从单阶段INR方法出发，引入了两阶段解码过程。这涉及同时优化两个INRs：一个“粗略”Dec_c，具有浅层，一个“精细”Dec_f，具有深层。Dec_c生成粗略的分割图，作为Dec_f细化的参考。此外，Dec_c生成的粗略特征也被Dec_f在细化过程中使用。作者采用MC-dropout计算每个像素的特征的不确定性。随后，根据这种不确定性采样Top-K百分比的特征点，记为。最后，将“粗略”和“精细”INRs的预测结合起来，生成I-MedSAM的输出。解码过程表示为：

这里，UGS表示不确定性引导的采样，以下部分将进一步说明。

不确定性引导的采样。在采样过程中，作者从“粗略”INR Dec_c中选择需要细化的特征点，并根据不确定性估计将它们输入到“精细”INR Dec_f中。借鉴MC-Dropout方法，作者应用dropout T次以获得T个粗略分割概率的预测结果，给定输入特征，表示为。不确定性计算为每个特征点预测的方差，表示为：

随后，作者采样具有最高Top-K百分比不确定性的特征点，形成，供Dec_f细化。这种不确定性估计反映了不同样本之间预测难度的变化。它自适应地选择难度较高的像素进行Dec_f细化，从而实现更准确的分割结果。