关注下方“PaperAccepted”卡片,每天获取前沿论文解读
论文信息题目:I-MedSAM: Implicit Medical Image Segmentation with Segment Anything
I-MedSAM:基于SAM的隐式医学图像分割
作者:Xiaobao Wei, Jiajun Cao, Yizhu Jin, Ming Lu, Guangyu Wang, Shanghang Zhang
原文链接:https://arxiv.org/abs/2311.17081
源码:https://github.com/ucwxb/I-MedSAM
论文创新点
提出I-MedSAM模型:作者提出了一种新颖的方法I-MedSAM,结合了SAM和连续表示的优势,以增强跨领域能力和实现精确的边界描绘。
设计频率适配器:作者设计了一种新颖的频率适配器,利用高频信息增强特征,从而准确分割边界。
引入粗到细INR解码器:作者提出了一种新颖的粗到细INR解码器,结合不确定性引导的采样(UGS)策略,学习从特征和坐标到分割输出的映射。
详细评估I-MedSAM:作者对I-MedSAM在2D医学图像分割上的详细评估表明,I-MedSAM优于最先进的连续和离散方法,并且在尺度和领域转移方面表现出鲁棒性。
摘要
随着深度神经网络(DNNs)的发展,许多努力已经致力于处理医学图像分割。传统方法如nnUNet在单个数据集上训练特定的分割模型。最近提出了许多方法来适应基础的Segment Anything Model(SAM)用于医学图像分割。然而,它们仍然专注于离散表示来生成像素级预测,这在空间上不够灵活,且难以扩展到更高分辨率。相比之下,隐式方法学习连续表示进行分割,这对医学图像分割至关重要。本文提出了I-MedSAM,它结合了连续表示和SAM的优势,以获得更好的跨领域能力和准确的边界描绘。由于医学图像分割需要预测详细的分割边界,我们设计了一种新颖的适配器,在参数高效微调(PEFT)过程中增强SAM特征的高频信息。为了将SAM特征和坐标转换为连续的分割输出,我们利用隐式神经表示(INR)来学习隐式分割解码器。我们还提出了一种不确定性引导的采样策略,以高效学习INR。在2D医学图像分割任务上的广泛评估表明,我们提出的方法仅用1.6M可训练参数就优于现有的离散和隐式方法。
关键字
医学图像分割 · 隐式神经表示 · Segment Anything
3 方法
在本节中,详细阐述I-MedSAM的流程。然后,解释I-MedSAM中引入的新设计。
3.2 整体流程
如图2所示,I-MedSAM包括两个主要部分。第一部分集成了带有适配器的图像编码器,形成,以及一个提示编码器,遵循SAM的设计。具体来说,考虑到频域在分割边界表示中的重要作用,设计了一种频率适配器用于提取频率特征。以医学图像和提示边界框为输入,从空间和频域中提取多尺度特征。在涉及跨分辨率的场景中,需要将提取的特征从源分辨率插值到目标分辨率以实现分割输出。第二部分是隐式分割解码器Dec,由两个堆叠的INRs组成:一个“粗略”Dec_c,具有浅层,一个“精细”Dec_f,具有深层。通常,Dec_c生成粗略的分割图,Dec_f在采样点上进行细化。这些点的选择由通过MC-Dropout和Top-K算法评估的分割预测的不确定性决定。以下部分将详细解释这两个部分。
3.3 医学图像编码器
在本节中,作者介绍了集成到SAM中的频率适配器和低秩适配器,以提取空间和频域中的特征。
频率适配器。离散傅里叶变换(DFT)是一种将图像转换为频域的常用且有效的方法。在实践中,快速傅里叶变换(FFT)用于高效计算DFT,的频谱表示可以表示为:
随后,可以分别获得的幅度和相位频谱。实验结果表明,幅度频谱比相位频谱表现出更优越的表示能力。因此,作者默认使用幅度频谱作为提出的频率适配器(FA)。如图3所示,单个FA包括一个线性降投影层、一个GELU激活层和一个线性升投影层。总共使用n个FA实例作为序列,对应于的Vision Transformer(ViT)块的数量。
低秩适配器。与微调图像编码器中的所有参数不同,作者利用低秩适配器(LoRA)更新一小部分参数,以适应医学图像,如图3所示。给定编码的令牌序列,使用投影层生成结果令牌序列,表示为。LoRA建议对的调整应逐步且一致。它建议利用低秩近似和来表示这一逐步更新,可以表示为:
由于多头注意机制决定了关注的区域,因此将LoRA应用于冻结的查询、键或值的投影层以影响注意力得分是合理的。作者注意到,当LoRA应用于查询和值投影层时,I-MedSAM表现更好,可以表示为:
其中,、和是来自SAM图像编码器的冻结投影层,、、、是可训练的LoRA参数。
3.4 隐式分割解码器
在本节中,作者介绍了一种粗到细的隐式神经表示,结合不确定性引导的采样(UGS)策略,将编码器的特征解码为目标分辨率下的分割图。
粗到细隐式神经表示。给定来自图像编码器和提示编码器的特征,作者将它们从源分辨率插值到目标分辨率,并与坐标连接。这些坐标在目标分辨率下生成,并归一化到。为了应对直接使用输入坐标可能导致的偏置学习,作者使用高频位置编码函数将坐标编码到更高维空间,定义为:
在实验中,超参数L设置为10。编码坐标、来自图像和提示编码器的编码特征连接后输入解码器:
这里,和分别表示输入医学图像和对应的粗略边界框提示。函数Interp指基于双线性算法的插值函数,用于将编码特征从源分辨率插值到目标分辨率,与编码坐标对齐。
受NeRF启发,作者从单阶段INR方法出发,引入了两阶段解码过程。这涉及同时优化两个INRs:一个“粗略”Dec_c,具有浅层,一个“精细”Dec_f,具有深层。Dec_c生成粗略的分割图,作为Dec_f细化的参考。此外,Dec_c生成的粗略特征也被Dec_f在细化过程中使用。作者采用MC-dropout计算每个像素的特征的不确定性。随后,根据这种不确定性采样Top-K百分比的特征点,记为。最后,将“粗略”和“精细”INRs的预测结合起来,生成I-MedSAM的输出。解码过程表示为:
这里,UGS表示不确定性引导的采样,以下部分将进一步说明。
不确定性引导的采样。在采样过程中,作者从“粗略”INR Dec_c中选择需要细化的特征点,并根据不确定性估计将它们输入到“精细”INR Dec_f中。借鉴MC-Dropout方法,作者应用dropout T次以获得T个粗略分割概率的预测结果,给定输入特征,表示为。不确定性计算为每个特征点预测的方差,表示为:
随后,作者采样具有最高Top-K百分比不确定性的特征点,形成,供Dec_f细化。这种不确定性估计反映了不同样本之间预测难度的变化。它自适应地选择难度较高的像素进行Dec_f细化,从而实现更准确的分割结果。
4 实验
声明
本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与作者联系,作者将在第一时间回复并处理。