ECCV 2024 | 卷起来了!AnythingI-MedSAM:基于SAM的隐式医学图像分割

关注下方“PaperAccepted”卡片,每天获取前沿论文解读

论文信息
题目:I-MedSAM: Implicit Medical Image Segmentation with Segment Anything
I-MedSAM:基于SAM的隐式医学图像分割
作者:Xiaobao Wei, Jiajun Cao, Yizhu Jin, Ming Lu, Guangyu Wang, Shanghang Zhang
原文链接:https://arxiv.org/abs/2311.17081
源码:https://github.com/ucwxb/I-MedSAM

论文创新点

  1. 提出I-MedSAM模型:作者提出了一种新颖的方法I-MedSAM,结合了SAM和连续表示的优势,以增强跨领域能力和实现精确的边界描绘。

  2. 设计频率适配器:作者设计了一种新颖的频率适配器,利用高频信息增强特征,从而准确分割边界

  3. 引入粗到细INR解码器:作者提出了一种新颖的粗到细INR解码器,结合不确定性引导的采样(UGS)策略,学习从特征和坐标到分割输出的映射

  4. 详细评估I-MedSAM:作者对I-MedSAM在2D医学图像分割上的详细评估表明,I-MedSAM优于最先进的连续和离散方法,并且在尺度和领域转移方面表现出鲁棒性。

摘要

随着深度神经网络(DNNs)的发展,许多努力已经致力于处理医学图像分割。传统方法如nnUNet在单个数据集上训练特定的分割模型。最近提出了许多方法来适应基础的Segment Anything Model(SAM)用于医学图像分割。然而,它们仍然专注于离散表示来生成像素级预测,这在空间上不够灵活,且难以扩展到更高分辨率。相比之下,隐式方法学习连续表示进行分割,这对医学图像分割至关重要。本文提出了I-MedSAM,它结合了连续表示和SAM的优势,以获得更好的跨领域能力和准确的边界描绘。由于医学图像分割需要预测详细的分割边界,我们设计了一种新颖的适配器,在参数高效微调(PEFT)过程中增强SAM特征的高频信息。为了将SAM特征和坐标转换为连续的分割输出,我们利用隐式神经表示(INR)来学习隐式分割解码器。我们还提出了一种不确定性引导的采样策略,以高效学习INR。在2D医学图像分割任务上的广泛评估表明,我们提出的方法仅用1.6M可训练参数就优于现有的离散和隐式方法。

关键字

医学图像分割 · 隐式神经表示 · Segment Anything

d945dabe13e45e0643696d13f1ae4bc5.jpeg

3 方法

在本节中,详细阐述I-MedSAM的流程。然后,解释I-MedSAM中引入的新设计。

8264cf7b64581c6679f3b027a9092a36.jpeg

3.2 整体流程

如图2所示,I-MedSAM包括两个主要部分。第一部分集成了带有适配器的图像编码器,形成,以及一个提示编码器,遵循SAM的设计。具体来说,考虑到频域在分割边界表示中的重要作用,设计了一种频率适配器用于提取频率特征。以医学图像和提示边界框为输入,从空间和频域中提取多尺度特征。在涉及跨分辨率的场景中,需要将提取的特征从源分辨率插值到目标分辨率以实现分割输出。第二部分是隐式分割解码器Dec,由两个堆叠的INRs组成:一个“粗略”Dec_c,具有浅层,一个“精细”Dec_f,具有深层。通常,Dec_c生成粗略的分割图,Dec_f在采样点上进行细化。这些点的选择由通过MC-Dropout和Top-K算法评估的分割预测的不确定性决定。以下部分将详细解释这两个部分。

3.3 医学图像编码器

在本节中,作者介绍了集成到SAM中的频率适配器和低秩适配器,以提取空间和频域中的特征。

频率适配器。离散傅里叶变换(DFT)是一种将图像转换为频域的常用且有效的方法。在实践中,快速傅里叶变换(FFT)用于高效计算DFT,的频谱表示可以表示为:

随后,可以分别获得的幅度和相位频谱。实验结果表明,幅度频谱比相位频谱表现出更优越的表示能力。因此,作者默认使用幅度频谱作为提出的频率适配器(FA)。如图3所示,单个FA包括一个线性降投影层、一个GELU激活层和一个线性升投影层。总共使用n个FA实例作为序列,对应于的Vision Transformer(ViT)块的数量。

9ed9db2eee150856a439cab3bb907cbb.jpeg

低秩适配器。与微调图像编码器中的所有参数不同,作者利用低秩适配器(LoRA)更新一小部分参数,以适应医学图像,如图3所示。给定编码的令牌序列,使用投影层生成结果令牌序列,表示为。LoRA建议对的调整应逐步且一致。它建议利用低秩近似和来表示这一逐步更新,可以表示为:

由于多头注意机制决定了关注的区域,因此将LoRA应用于冻结的查询、键或值的投影层以影响注意力得分是合理的。作者注意到,当LoRA应用于查询和值投影层时,I-MedSAM表现更好,可以表示为:

其中,、和是来自SAM图像编码器的冻结投影层,、、、是可训练的LoRA参数。

3.4 隐式分割解码器

在本节中,作者介绍了一种粗到细的隐式神经表示,结合不确定性引导的采样(UGS)策略,将编码器的特征解码为目标分辨率下的分割图。

粗到细隐式神经表示。给定来自图像编码器和提示编码器的特征,作者将它们从源分辨率插值到目标分辨率,并与坐标连接。这些坐标在目标分辨率下生成,并归一化到。为了应对直接使用输入坐标可能导致的偏置学习,作者使用高频位置编码函数将坐标编码到更高维空间,定义为:

在实验中,超参数L设置为10。编码坐标、来自图像和提示编码器的编码特征连接后输入解码器:

这里,和分别表示输入医学图像和对应的粗略边界框提示。函数Interp指基于双线性算法的插值函数,用于将编码特征从源分辨率插值到目标分辨率,与编码坐标对齐。

受NeRF启发,作者从单阶段INR方法出发,引入了两阶段解码过程。这涉及同时优化两个INRs:一个“粗略”Dec_c,具有浅层,一个“精细”Dec_f,具有深层。Dec_c生成粗略的分割图,作为Dec_f细化的参考。此外,Dec_c生成的粗略特征也被Dec_f在细化过程中使用。作者采用MC-dropout计算每个像素的特征的不确定性。随后,根据这种不确定性采样Top-K百分比的特征点,记为。最后,将“粗略”和“精细”INRs的预测结合起来,生成I-MedSAM的输出。解码过程表示为:

这里,UGS表示不确定性引导的采样,以下部分将进一步说明。

不确定性引导的采样。在采样过程中,作者从“粗略”INR Dec_c中选择需要细化的特征点,并根据不确定性估计将它们输入到“精细”INR Dec_f中。借鉴MC-Dropout方法,作者应用dropout T次以获得T个粗略分割概率的预测结果,给定输入特征,表示为。不确定性计算为每个特征点预测的方差,表示为:

随后,作者采样具有最高Top-K百分比不确定性的特征点,形成,供Dec_f细化。这种不确定性估计反映了不同样本之间预测难度的变化。它自适应地选择难度较高的像素进行Dec_f细化,从而实现更准确的分割结果。

4 实验

514f4766bdbe0c83e3446a40ed97acb6.jpeg7f1778b5db3d81587115b5ee18ea83ba.jpeg129abe2e8ced4a627b2ffa9ffdc67a3b.jpeg

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与作者联系,作者将在第一时间回复并处理。

8d27cb9c3ad6dc9bb8997bf65f4aeeb3.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值