分割大模型论文阅读——SAM-Med2D

期刊分析

期刊名: ArXiv
期刊信息: 暂无
在这里插入图片描述
值得一提的是,SAM-Med2D和SAM-Med3D的共同通讯地址是上海人工智能实验室,这篇作者是川大的,SAM-Med3D作者是交大的

摘要

Segment Anything Model (SAM) 代表了自然图像分割领域最先进的研究进展,通过点和边界框等输入提示取得了令人印象深刻的结果。然而,我们的评估和最近的研究表明,直接将预训练的 SAM 应用于医学图像分割并不能产生令人满意的性能。这种限制主要源于自然图像和医学图像之间的显着域差距。为了弥补这一差距,我们引入了 SAM-Med2D,这是将 SAM 应用于医学 2D 图像的最全面的研究。 其全面性体现在三个方面:收集最大规模的医学数据的综合分析、对各种微调方案最全面的研究、对性能最全面的评估。 具体来说,我们首先从公共和私人数据集中收集和整理大约 460 万张图像和 1970 万张掩模,构建包含各种模式和对象的大规模医学图像分割数据集。然后,我们在此数据集上全面微调 SAM,并将其转化为 SAM-Med2D。与之前仅采用边界框或点提示作为交互式分割方法的方法不同,我们通过涉及边界框、点和掩模的更全面的提示将 SAM 应用于医学图像分割。我们还对原始 SAM 的编码器和解码器进行了微调,以获得性能良好的 SAM-Med2D,从而形成迄今为止最全面的微调策略。最后,我们进行了全面的评估和分析,以研究 SAM-Med2D 在各种模态、解剖结构和器官的医学图像分割中的性能。同时,我们在 MICCAI 2023 挑战赛的 9 个数据集上验证了 SAM-Med2D 的泛化能力。总体而言,与 SAM 相比,我们的方法表现出显着优越的性能和泛化能力。我们的代码可以在 https://github.com/uni-medical/SAM-Med2D 找到。


引言

医学图像分割通过识别和描绘各种组织、器官或感兴趣区域,在医学图像分析中发挥着至关重要的作用。准确的分割可以帮助医生精确识别和定位病理区域,从而实现更准确的诊断和治疗[1]。此外,医学图像的定量和定性分析可以全面了解不同组织或器官的形态、结构和功能,促进疾病研究和发现[2]。然而,由于医学影像的特点,例如众多的模态、复杂的组织和器官结构以及可用的注释数据很少,大多数现有方法仅限于特定的模态、器官或病变[3,4,5]。这种限制阻碍了算法的通用性和适应性,使得将它们应用于不同的临床场景变得具有挑战性。
在这里插入图片描述
最近,大规模模型的趋势在整个人工智能领域引起了热议。 ChatGPT2、ERNIE Bot 3、DINO [6]、SegGPT [7]、SAM [8]等通用人工智能模型的出现,促进了使用单个模型来解决多个任务。作为最新的大规模视觉模型,SAM 使用户能够通过交互式点击、边界框或提供自然语言提示来生成特定感兴趣区域的掩模。它在自然图像上的零样本和少样本能力 [9, 10] 引起了各个领域的广泛关注。

在医学成像领域,一些工作[11,12,13,14,15]也关注SAM的零射击能力。然而,由于自然图像和医学图像之间存在显着的域差距,SAM 很难推广到多模态和多对象医学数据集,导致跨数据集的分割性能不稳定。原因可归因于数据收集方法:医学图像是通过某些协议和扫描仪收集的,并且由于其特定的临床目的而以不同的模式(电子、激光、X 射线、超声、核物理和磁共振)呈现。因此,这些图像基于一系列基于物理的属性和能源,与自然图像有很大不同。如图1所示,自然图像和医学图像在像素强度、颜色、纹理等分布特征上存在显着差异。 因此,SAM 不能直接应用于医学领域的限制是预料之中的[11,12,13,14,15]:鉴于 SAM 仅在自然图像上进行训练,它缺乏与医学成像相关的特定知识。

由于标注成本高且标注质量参差不齐,为 SAM 配备医学知识非常困难。准备医疗数据需要领域知识,并且其质量在不同的医院和临床研究中存在很大差异。这些挑战导致医学图像和自然图像的数量之间存在显着差异。图1中的条形图比较了公开的自然图像数据集和医学图像数据集的数据量。例如,医学领域最大的公共分割数据集 Totalsegmentor 与 Open Image v6 [42] 和 SA-1B [8] 相比也存在显着差距。在本研究中,我们的目标是将 SAM 从自然图像转移到医学图像。这将为医学图像分析研究人员探索和提升提供基准模型和评估框架。为了实现这一目标,我们提出了 SAM-Med2D,这是通过解决以下问题将 SAM 应用到医学 2D 图像的最全面的研究:
在这里插入图片描述

• 如何针对医学成像领域微调SAM?
1 我们需要将医学图像的知识纳入 SAM,因此我们收集并整理了一个医学图像分割数据集,其中包含超过 460 万张图像和 1970 万张掩模。据我们所知,该数据集代表了最大的医学图像分割数据集,涵盖多种模式并覆盖全面的对象。表 1 说明了在特定的有限规模医疗数据集上微调 SAM 的方法。虽然这些方法已被证明是有效的,但它们只能增强 SAM 在类似于训练数据集的特定场景中的分割能力。因此,它们的适用性对于更多样化的医学图像分割任务来说是有限的。

2 将SAM迁移到医疗领域时,不同的提示模式在不同的分割任务中发挥着重要作用。如图2©所示,利用边界框提示可以获得相对准确的息肉掩模。相反,当单击前景点(d 列)时,蒙版质量较差。随着点击次数的增加,分割结果逐渐提高甚至超越边界框提示的性能(例如肝脏分割)。在分割心肌时,使用边界框提示可能会在结果中包含不感兴趣的区域,而点提示可以让我们逐渐获得所需的掩模。因此,本文旨在微调三种提示模式(点、边界框和掩模),以满足医学图像分割任务中不同场景的要求。根据表1,与其他方法相比,我们的方法涉及更全面的微调,这意味着我们的方法在医学图像领域拥有更广泛的即时分割能力。

3 适配器已被证明是微调大型模型的有效策略[21, 43]。它们不需要重新训练整个模型,确保原始知识不会被遗忘。这使得现有模型能够在新任务和原始任务中表现出色。由于适配器的参数共享特性,它们促进了不同任务之间的迁移学习。因此,本文将Adapter应用到SAM的编码器中来学习医学成像领域的领域特定信息。此外,适配器层是一个即插即用的组件,允许我们在测试过程中根据我们的具体需求选择保留还是删除它。

• 如何评估SAM-Med2D的性能?
为了全面评估 SAM-Med2D 在医学影像领域的表现,我们从多个角度评估了其能力。我们重点关注以下几个方面: 1)数据多样性:我们在各种成像模式(如 CT、MR、X 射线)、不同器官以及多种病理状况(如肿瘤、炎症等)上评估 SAM-Med2D,以确保其能力分割不同类型的医学图像。 2)微调策略:我们将 SAM-Med2D 的默认微调策略与其他替代策略(例如不同的模型配置)进行比较,以证明 SAM-Med2D 在医学成像领域的成功。 3)泛化能力:我们使用9个MICCAI2023数据集评估了SAM-Med2D的鲁棒性,以确保其在未见过的医学图像环境中的准确分割。

通过综合评估,我们发现SAM-Med2D具有以下能力: 1)医疗专业性:与SAM相比,SAM-Med2D在处理复杂器官结构、病变以及边界不清晰的病例方面表现出优越的性能。这意味着 SAMMed2D 可以准确识别和分割医学图像中的挑战性区域,从而提供更精确的诊断和治疗支持。 2)广泛的分割能力:SAM-Med2D在各种提示模式下展示了广泛的分割能力,使其能够完成不同场景下的分割任务。这意味着医生和医学影像专业人员可以利用 SAM-Med2D 进行更精确的分割操作,从而提高医学图像分析结果的效率和可靠性。 3)泛化能力:SAM-Med2D表现出很强的泛化能力,可以直接应用于看不见的医学图像数据并产生良好的分割结果。

相关工作

大规模视觉模型 (LVM)。 受到ChatGPT和GPT44等大型语言模型的启发,研究人员开发了类似的LVM包括[7,8,22,23,24,25,26]。这些模型表现出出色的零样本和少样本泛化能力,能够通过预训练和微调范式快速适应和扩展到目标任务或领域。其中,CLIP[23]提供了统一的视觉和语言模型,可用于各种任务,包括分类、检测和视觉问答。通过对文本和图像对进行广泛的预训练,该模型在多个基准测试中取得了令人印象深刻的结果。 DALL·E [25] 是大型 Transformer 模型 GPT-3 的变体,经过训练可根据文本描述生成图像。最近,在 1B 掩模上预训练的 SAM [8] 已成为用于图像分割的通用 LVM。它展示了强大的零样本功能,允许对任何对象进行交互式或自动分割。相比之下,SegGPT [7] 通过将不同的分割数据转换为标准化格式的图像,将不同的分割任务统一到单个上下文学习框架中。此外,SEEM [26]提出了一种通用界面,采用多模式提示来同时分割图像或视频中的所有内容并识别对象类别。然而,这些 LVM 尚未针对医学图像分析 (MIA) 领域进行明确优化。

医学图像分析中的微调 SAM。 SAM 为交互式分割提供了一个优秀的框架,使其成为基于提示的医学图像分割的基准模型。然而,由于自然图像和医学图像之间存在显着的域差异,当应用于医学图像时,SAM 的性能显着下降[16,17,18,20,21]。当前的研究主要集中在针对特定医学分割数据集微调 SAM。邓等人。 [16]提出了一种触发SAM不确定性估计的多框提示,在视网膜图像分割方面取得了显着的改进。张等人。 [17]将基于低秩的微调策略应用于 SAM 编码器,同时针对腹部分割任务微调解码器。胡等人。 [18]放弃了SAM原来的提示编码器,构建了不同类型的预测头进行微调,以完成自动心脏分割。马等人。 [20]收集了 11 种不同模式的医学图像数据,并在超过 1M 个掩模上对 SAM 的掩模解码器进行了微调,同时保留了原始框提示。与上述研究相反,Wu 等人。 [21] 提出了 MSA,它使用简单的适配器技术将医学特定领域知识集成到 SAM 中,并在 19 个医学图像分割任务上进行了验证。这些研究表明,微调或适配器技术可以提高 SAM 在医学图像分割中的性能。与上述仅提供边界框或点提示的方法不同,我们通过使用更全面的提示(即边界框、点和掩模)使 SAM 适应医学图像分割。此外,我们通过考虑医学图像中不同的成像模式、解剖结构和器官,全面分析了我们的方法在医学图像分割中的性能和挑战。

医学成像中 SAM 的零样本评估。 最近的研究报告了 SAM 在医学图像分割中的零样本性能。邓等人。 [27]研究了SAM在不同提示条件下对肿瘤和组织任务的分割能力,实验结果表明SAM仅在分割大型连接对象上表现更好。胡等人。 [28]评估了点提示对 SAM 在 CT 体积中多相肝脏肿瘤分割中的性能的影响。结果表明,SAM 的性能随着点提示数量的增加而提高。周等人。 [12]在没有提示的情况下测试了 SAM 在结肠镜息肉分割中的性能,结果表明将 SAM 应用于息肉分割任务时还有很大的改进空间。程等人。 [29]在 12 个开源医学图像数据集上广泛评估了以下模型:无提示模型、具有 1、3 和 10 点提示的模型以及具有 5 种不同抖动级别的框提示的模型。与最先进的结果相比,SAM 的性能通常较低。同样,黄等人。 [15]使用三种不同的提示评估了 SAM 在 52 个公共数据集上的零样本性能,评估结果一致表明 SAM 在各种医学图像分割任务中的性能不令人满意。我们相信分析 SAM 在大规模医学图像数据集上的性能至关重要。这可以帮助社区更好地了解影响模型感知医疗对象的能力的因素。这些因素有助于改善一般医学分割方法的发展。因此,本研究从多个角度对SAM-Med2D进行了综合评价。
在这里插入图片描述

方法

将医学知识纳入 SAM

最近的研究重申了训练数据量在大型模型学习能力中的关键作用[7,8,23]。通过从更大规模的数据中学习,模型可以获得更丰富的特定领域知识,更好地适应各种应用场景。尽管在超过 1B 个掩模上进行训练,但由于自然图像和医学数据之间存在显着的域差距,SAM 在医学图像分析领域的性能并不理想。为了解决这一差距,我们收集并整理了迄今为止最大的医学图像分割数据集。该数据集由众多公共和私人数据集组成,确保了全面的覆盖范围和多样性。图 3 (b) 说明了该数据集的 10 种不同成像模式及其相应的数据比例。为了增强视觉呈现,我们使用对数缩放来可视化数量差异。根据解剖结构和病变的存在,我们将数据集分为头颈、胸部、腹部、骨盆和病变(图 3 ©)。此外,我们从这些数据集中的 271 个标签中整理并整合了 31 个主要器官,如图 3 (a) 所示。这涵盖了当前可用的公共数据集中的几乎所有对象类型,解决了 SAM 在医学领域知识方面的不足。

为了将SAM有效应用于医学图像分割,我们从多个角度对数据集进行了预处理。首先,对于 3D 数据集,我们将每个体积的强度值标准化为范围 [0, 255],并沿 x、y 和 z 轴提取所有切片图像及其相应的掩模。在提取过程中,最短边缘小于最长边缘长度一半的切片图像被丢弃,以防止在调整大纵横比图像时目标区域变得极其模糊。对于2D数据集,我们只检查像素值是否在[0, 255]范围内,所有处理后的图像都以PNG格式保存,以保持数据加载的一致性。其次,当一个掩码包含多个类时,我们生成多个掩码,每个掩码仅包含一个类(类似于 sam1B [8])。我们还将具有多个连接组件(例如,左肺和右肺)的掩模拆分为具有单个连接组件的多个掩模。如果存在多个器官并且仅包含一个连接的组件,我们保留掩模以增加数据多样性。最后,我们排除了目标区域占整个图像的比例小于 0.153% ( 100/(256×256) ) 的掩模,这意味着当图像大小调整为 256×256 时,其目标区域必须超过 100 个像素。

按照这些过程,我们获得了大约 460 万张图像和 1970 万张掩模。我们根据图像索引随机划分 80% 的数据用于训练,20% 的数据用于测试。生成的训练集包含大约 367 万张图像和 1580 万个掩模,而测试集包含 0.92 万张图像和 390 万个掩模。我们还引入了 9 个 MICCAI2023 数据集(包含约 0.52M 图像和 1.31M 掩模),仅用于验证模型的泛化能力。我们相信,凭借更全面、更多样化的训练数据,SAM将更好地适应医学影像领域的复杂性和细微差别,为医疗保健领域的应用提供更准确、更可靠的支持。这也将为医学图像分割领域的研发带来新的机遇和挑战。
在这里插入图片描述

从 SAM 过渡到 SAM-Med2D

在介绍 SAM-Med2D 之前,我们先简单回顾一下 SAM 架构。 SAM 由三个主要组件组成:大规模图像编码器、提示编码器和轻量级掩模解码器。该框架允许根据不同的提示为同一图像生成不同的掩模。图像编码器利用预先训练的视觉变换器 (ViT) [22] 以原始图像的 1/16 比例处理高分辨率输入和输出特征图。提示编码器包括稀疏提示和密集提示,将点、边界框或文本映射到 256 维向量,并在每个级别使用 GELU 激活函数对密集提示应用卷积下采样。掩码解码器从两个编码器接收嵌入信息,并通过交叉注意机制更新图像嵌入和提示嵌入。在这项工作中,我们对 SAM 进行了微调,创建了 SAM-Med2D,有效地将框架扩展到医学图像领域。我们现在将详细讨论 SAM-Med2D 的每个组件和微调策略。

A. 调整图像编码器
作为 SAM 参数最多的部分,在微调过程中全局更新图像编码器会产生大量的计算成本。为了以较低的成本将医学领域知识融入到图像编码器中,我们引入了适配器技术。具体来说,我们在微调期间冻结原始图像编码器的所有参数,并为每个 Transformer 块部署一个适配器,如图 4 所示。我们沿着通道和空间维度调整图像编码器。对于通道维度,我们首先使用全局平均池化将输入特征图的分辨率压缩到 C×1×1。然后,我们使用一个线性层来压缩通道嵌入,并使用另一个线性层来恢复它们,压缩率为0.25。最后,我们通过sigmoid函数获得通道维度的权重,并将其与输入特征图相乘,作为下一级的输入。对于空间维度,我们使用卷积层将特征图的空间分辨率下采样两倍,并使用转置卷积恢复空间分辨率,保持与输入相同的通道数。在每个适配器层之后添加一个跳跃连接。

B. 提示编码器和掩模解码器
SAM 中的提示编码器支持四种类型的提示:点、边界框、掩模和文本提示。由于缺乏大规模的医学图文对齐预训练模型,文本提示的使用受到限制。因此,我们只考虑剩下的三种提示模式进行微调。与以前仅微调单个提示的方法相比[20, 21],我们保留了提示的全部功能并增强了它们在医学成像领域的适用性。具体来说,SAM-Med2D 同时利用稀疏提示(点和边界框)和密集提示(掩模)。对于稀疏提示,每个点都表示为其位置编码的向量嵌入以及指示其前景或背景位置的两个学习嵌入的总和。每个边界框使用其左上角和右下角的位置编码,以及将“左上角”和“右下角”表示为向量嵌入的学习嵌入。对于密集提示,我们使用模型第一次迭代后生成的低分辨率特征图作为掩码提示,应用两个卷积嵌入,将输入掩码的比例减少 4 倍,输出通道为 1/4 和原始输入的 1/16。最后,使用1×1卷积将通道维度映射到256。

我们没有对掩码解码器结构进行任何更改,并在训练过程中不断更新其参数。为了使模型能够感知歧义,每个提示会同时预测多个掩码(默认为三个)。在反向传播过程中,我们选择相对于地面真实情况具有最高交并集(IoU)分数的预测掩模来计算损失,并相应地传播梯度。我们将上一次迭代生成的低分辨率特征图映射到 [0, 1] 的范围,作为当前迭代的密集提示。在实际训练过程中,我们观察到即使只有稀疏提示,模型也可以快速收敛,从而减弱了密集提示的影响。因此,我们采用 SAM 的训练策略,在最后一次迭代和一次随机中间迭代中,我们只提供密集的提示来鼓励模型从提供的掩模中受益。

C.微调策略
与SAM和其他交互式分割方法[30]类似,我们通过模拟交互式分割来训练SAM-Med2D。对于每批数据,我们训练模型 9 次迭代。在第一次迭代中,我们以相等的概率随机选择一个前景点或边界框作为稀疏提示。前景点是从地面实况中采样的,边界框是地面实况的最大外接矩形,每个坐标最多偏移五个像素。值得注意的是,除了第一次迭代同时更新Adapter层、提示编码器和掩码解码器的参数外,后续迭代仅更新掩码解码器的参数。从第二次迭代开始,我们从之前的掩模预测与真实值之间的误差区域中随机选择1、3、5或9个点作为后续的稀疏提示,允许用户进行单点或多点交互式分割。 SAM-Med2D 旨在通过专门针对医学成像领域调整 SAM 框架来改进医学图像的分割。它融合了适配器技术,扩展了提示的功能,并采用了基于模拟交互分段的微调策略。

评估 SAM-Med2D

综合性能评估对于研究界更深入地了解影响算法感知医疗对象能力的因素至关重要,从而改进方法并提高其在实际应用中的有效性。然而,之前的评估[11,12,13,15]受到数据稀缺和通用医学图像分割方法缺乏基准的限制,导致评估仅限于小规模数据集和有限的类别,未能充分揭示算法的优势和适用性。为了弥补这一研究空白,我们将对 SAM-Med2D 进行全面、多维度的评估,为未来的研究人员提供交互式分割方法的基准。

模型方面,我们以SAM为基准模型,从其交互方式中选择Bbox和Points两种直观的提示模式来评估SAM-Med2D。之所以做出这样的选择,是因为Bbox和点是常用的交互模式,可以作为简单高效的标注方法。通过评估 SAM-Med2D 在这两种交互模式下的性能,我们可以深入研究它们在医学图像分割任务中的优势和局限性。 Bbox交互模式通过用盒子包围目标来引导算法进行分割,直观易懂。它提供了目标的粗略位置和形状信息,从而指导算法进行更准确的分割。然而,在某些情况下,用 Bbox 准确包围目标可能具有挑战性,特别是对于形状复杂的目标、边缘模糊的目标或重叠的对象。这可能会导致分割结果不准确和丢失分割的情况。另一方面,点交互模式通过标记目标的关键点或区域来引导算法进行分割。该模式可以提供更精确的分割指导,特别是对于具有复杂形状或局部细节的目标。这些评估将帮助我们更深入地了解医学图像分割中不同交互模式的优点和局限性,从而启发研究人员设计和开发更灵活、更高效的交互模式。

在数据方面,我们将评估 SAM-Med2D 在 10 种不同模式的医学图像上的性能,包括 MRI、CT、超声等。这种全面的评估将使我们能够了解 SAM-Med2D 在特定模态下的优势和挑战,并揭示其在多模态图像中的潜在应用能力。不同的医学图像模态具有不同的特征和噪声源,因此评估 SAM-Med2D 在这些模态上的性能将有助于更全面地了解其适用性和鲁棒性。此外,考虑到不同的解剖结构和器官具有独特的形态、特征和变异模式,我们对 4 个解剖结构和 31 个主要器官进行了 SAM-Med2D 评估。此类评估有助于我们深入了解 SAM-Med2D 在不同场景下的性能差异,并进行有针对性的改进,以应对特定结构和器官的挑战。最后,我们非常重视 SAM-Med2D 的泛化能力,因此在 9 个 MICCAI 2023 数据集上对其进行了测试。这些数据集代表从不同来源、机构或设备收集的医学图像,提供多样性。通过在这些数据集上评估 SAM-Med2D,我们可以验证其泛化到新数据的能力。这对于验证我们的方法在广泛的临床场景和数据源中的适用性至关重要。

通过上述综合评估,我们将能够深入了解SAM-Med2D的性能和适用性,为未来的研究人员和开发人员提供有价值的参考和基准。这些评估结果将对医学图像分割的发展产生积极影响,促进更准确、更高效方法的设计和应用。

实验与评估

实施细节

我们的方法在 PyTorch 中实现,并在 8 个 NVIDIA Tesla A100 GPU 上进行训练,每个 GPU 具有 80GB 内存。考虑到内存限制,我们在这项工作中仅微调 SAM (SAM-B) 的基本模型。我们使用 Adam 优化器,初始学习率为 1e-4,总共训练 12 个 epoch,在第 7 个和第 10 个 epoch 学习率除以 2。在训练期间,所有图像的大小都调整为 256x256 的分辨率。我们的调整大小策略包括对宽度和高度都小于 256 的图像用零填充边缘,而在其他情况下使用双线性插值来调整图像大小。对于每张图像,我们随机选择 5 个相应的掩模。如果可用的掩模较少,我们会随机复制样本。为了充分利用 GPU 内存,每个 GPU 处理 50 个图像及其相应的 250 个掩模。监督掩模预测的损失函数是焦点损失[31]和骰子损失[32]的线性组合,比率为20:1。此外,交并(IoU)预测和预测掩模与地面真实掩模之间的均方误差损失用于训练。我们使用 Dice 分数来评估分割结果。
在这里插入图片描述

定量评价

A. 整体表现。 表 2 显示了 SAM、FT-SAM(仅微调掩模解码器)和我们的 SAM-Med2D 在测试集上的整体性能结果。我们发现,在边界框提示(Bbox Prompt)模式下,FT-SAM 的 Dice 分数比 SAM 提高了 11.93%,而我们的 SAM-Med2D 实现了更显着的性能提升,Dice 分数达到了 79.30%(即 17.67) % 促进)。这表明对大规模数据集进行微调可以在目标域中带来更好的可迁移性。我们还模拟了点提示模式下的交互式分割。在这种模式下,我们从前景中随机采样一个点作为第一个提示点,随后的提示点在分割结果与地面实况之间的误差区域内随机选择。此外,在先前迭代中生成的低分辨率掩模被用作掩模提示,与先前的提示点一起作为模型的输入。实验结果表明,即使在 1024×1024 的分辨率下,SAM 在使用单点提示时也表现不佳,与 FT-SAM 相比,Dice 分数降低了 23.23%。随着提示点数量的增加,不同模型的性能显着提高,微调的方法甚至超越了Bbox提示模式。这证明了在医学图像中使用基于点的交互式分割的可行性和有效性。此外,SAM 在 1024×1024 分辨率下的整体分割性能不如微调方法。这表明微调模型学习了医学领域的具体知识,低成本的微调是减少领域差异的有效可行的方法。

B. 解剖结构的性能评估。 如图5(a)所示,我们评估了不同模型和分辨率在头颈(H&N)、胸部(Tx)、腹部(Abd)、骨盆(Pl)和其他区域的分割性能。 “其他区域”包括上述四种解剖结构之外的病灶和病例。我们主要关注的是使用 Bbox 提示和 1 点提示(1 pt 提示)的模型的分割性能。
我们观察到,当使用 Bbox 提示符时,SAM(1024 × 1024 分辨率)在 Tx、Abd 和其他区域的表现优于 FT-SAM。然而,它在 H&N 地区的表现较差。这可能是由于 H&N 区域的病变或器官尺寸相对较小,以及边界不太清晰,使得模型在不进行微调的情况下适应此类分割任务具有挑战性。与其他方法相比,我们的 SAM-Med2D 在所有解剖结构的 Dice 评分方面都表现出了优势。由于 1 分提示提供的信息有限,不同类别之间存在性能差异。有趣的是,我们发现微调后的 SAM 明显优于原始 SAM。这是因为微调方法从大规模医学图像数据集中学习了目标区域内点的位置关系,从而能够做出更准确的决策。
在这里插入图片描述
基于上述结果,我们得出结论,SAM-Med2D 在不同解剖结构的分割任务中表现出优异的性能,在骨盆和胸部区域的 Dice 度量方面产生了令人满意的结果。然而,值得注意的是,在不同模型和分辨率下,头部和颈部区域的性能似乎相对较差,这表明需要采取额外的改进措施。
在这里插入图片描述
C. 不同方式的绩效评估。 图5(b)总结了四种方法在Bbox提示模式下在不同模态数据上的性能。所有四种方法在皮肤镜检查、内窥镜检查、眼底摄影、组织病理学和显微镜检查中的 Dice 分数均超过 70%。当部署分辨率为 1024×1024 的预测图像时,SAM 在内窥镜检查、组织病理学和显微镜模式方面优于其他方法。我们将此结果归因于以下因素:1)这三种模态源自 2D 数据集并由 RGB 图像组成,与自然图像具有相似之处。 2)可用于微调的数据量有限,限制了微调方法的性能(如图中红线所示,代表对数变换后的掩模计数)。 3)更大的图像分辨率提供更多细节并导致更高的预测性能。在相同的分辨率设置下,我们的 SAM-Med2D 显着优于 SAM,并且可以有效处理来自所有成像模式的数据。由于包含不同类型的对象和数据规模的变化,直接比较不同模式的性能可能是不公平的。

表3给出了点提示模式下的性能。为了保持公平性,我们对 SAM (256)、FT-SAM 和 SAM-Med2D 使用相同的初始点进行预测。据观察,分割性能随着迭代次数的增加而显着提高,并且 SAM 在所有模式中都实现了超过 10% 的改进。更令人印象深刻的是,我们的 SAMMed2D 在仅进行单点交互的情况下,其性能优于其他具有五点交互的方法。这凸显了通过大规模预训练实现的点提示可以有效地应用于医学影像领域,从而实现比 Bbox 提示更高效的交互。
在这里插入图片描述
此外,我们注意到,对于组织病理学和显微镜模式,1024 × 1024 分辨率下 SAM 的多点相互作用实际上比单点相互作用表现更差。这可能是因为模型已经根据单点提示做出了最优决策,而旨在纠正分割结果的进一步点提示可能会干扰模型的判断。这一观察结果也表明微调可以提高 SAM 性能的上限。

D.主要机关绩效评价。 图 5 © 显示了 FT-SAM 和 SAM-Med2D 在 30 多个器官中的 Dice 评分差异。条形图表示使用5分提示获得的结果,而五角星表示使用Bbox提示对应的结果。 SAM-Med2D在24个器官中取得了较高的结果,最大差异达到6.95%。此外,通过观察同一器官在不同提示方式下的实验结果可以看出,5分提示与Bbox提示的性能差距较小。这一发现表明,当将 SAM 应用到医学领域时,边界框交互可能不是最有效的方法(随着点交互数量的增加,Bbox 提示的绝对优势逐渐减弱)。对于某些骨骼区域,例如肋骨、肩胛骨和锁骨,点提示策略可能更有效。总的来说,这些结果表明使用 Adapter 方法微调的模型可以实现出色的分割性能,并且点交互在器官分割中具有巨大的潜力。

E. 概括性评价。 为了评估 SAM-Med2D 的泛化能力,我们对 9 个公开可用的数据集进行了测试,其中大部分来自 MICCAI2023 竞赛 [33,34,35,36,37,38,39,40,41]。为了保证比较的公平性,我们统一使用256×256分辨率的图片进行测试。表4显示SAM在边界框提示下表现出优异的性能,加权平均Dice为85.35%。然而,其在单点提示下的表现并不令人满意(48.08%)。由于适配器层参数是即插即用的,我们测试了两种场景:保留和删除适配器层参数。当保留适配器层参数时,我们的 SAM-Med2D 在 Bbox 提示下获得了 81.93% 的 Dice 分数,而当删除适配器层参数时,性能提高了 8.19%。此外,我们观察到 SAM 未能有效适应点提示,在 9 个数据集上的最佳分割性能仅达到 51.05%。相比之下,我们的 SAM-Med2D 在点提示下获得了合理的分割结果。值得注意的是,当我们在推理过程中删除适配器层参数时,1 pt提示下的 SAM-Med2D 的性能与 Bbox 提示下的 SAM 的性能非常接近(83.41% vs. 85.35%),这节省了大量的时间。数据注释和分析的时间和成本。总之,SAM 仅在边界框提示下表现出良好的泛化性能,而我们的 SAM-Med2D 在两种提示模式下都实现了更好的泛化性能。
在这里插入图片描述

定性比较

我们定性比较了 SAM-Med2D 和 SAM 的分割掩模。 SAM的视觉结果来自两种分辨率中的较好者,即256×256或1024×1024。图 6 的前三行说明了两种方法在三种模态上的分割性能。在大多数情况下,Bbox指示的分割结果可以定位目标区域,但我们的SAM-Med2D视觉结果中的边界更清晰并且更接近地面真实情况。在 1 pt 提示的情况下,SAM 难以定位目标区域,导致分割结果与预期结果之间存在显着差异。

最后三行描述了两种模型对肝脏、肺和前列腺器官的分割结果。对于Bbox提示模式,两种方法都可以生成相似质量的蒙版。通过观察3分和5分提示的结果,我们可以看到更多的分提示会带来更好的分割结果。在具有相同点提示数量的模型中,SAM-Med2D 可以比 SAM 更好地描述目标区域,这意味着 SAM-Med2D 需要更少的交互操作和更少的时间来达到预期结果。这对于数据注释或伪标签生成是有利的。我们将这种现象归因于 SAM-Med2D 通过从大规模数据集学习来获取与医学成像领域相关的特定领域知识。这与本文的动机相一致,即为 SAM 迈向稳健且可靠的医学图像分割奠定基础。
在这里插入图片描述

图 7 显示了合并同一图像内多个目标区域的结果。当目标边界清晰时,SAM 和我们的 SAM-Med2D 之间存在细微的视觉差异。在其他情况下,SAM-Med2D可以实现人眼难以识别的部分的精确分割。另一方面,在1点提示的情况下,SAM经常在许多器官上失败并且难以定位目标区域。这再次表明,在大规模数据上微调 SAM 可以带来更好的域可转移性。

讨论与结论

在本研究中,我们通过在大规模医学图像数据集上微调 SAM 来获得 SAM-Med2D,它能够显着改善各种医学图像分割任务。我们采用两种明确的提示策略来生成用于定量和定性比较的掩模。在相同分辨率下,只有微调掩码解码器(FT-SAM)在Bbox提示模式下实现了11.93%的改进,而完全微调的SAM-Med2D实现了17.67%的改进。令人惊讶的是,我们的方法在 1 点提示中表现出压倒性的优势(18.94% vs. 70.01%)。此外,SAM-Med2D在两种提示模式下都表现出了出色的泛化能力,表明了其在医学领域的实用价值。

我们从数据的不同维度对模型进行综合评估。从解剖学的角度来看,在1024×1024的分辨率下,SAM在胸部、腹部等区域比FT-SAM更有优势,SAM-Med2D在整体分割性能上优于所有其他方法。对于不同的模态,当目标模态数据类似于自然图像属性时,SAM 表现出良好的泛化能力。我们在 30 多个主要器官上比较了两种微调方法,我们的 SAM-Med2D 在 24 个器官上取得了更好的结果,与 FT-SAM 相比最大提高了 6.95%。此外,我们对 9 个公开数据集的泛化实验证明了在大规模数据集上预训练的模型具有强大的域可转移性。虽然 Bbox 提示始终优于 1 pt 提示,但添加更多点可显着改善分割结果,甚至超越 Bbox 模式。
当使用点提示模式时,SAM-Med2D 能够更快地生成所需的掩模,甚至优于使用 Bbox 提示模式的其他方法。

然而,未来需要进一步优化以获得更鲁棒的医学图像分割。从定性分割结果来看,对于复杂形状/边界、小尺寸或低对比度的物体,不同提示模式产生的分割结果仍有改进的空间。未来建立相关的优化策略可能会提高分割结果,例如为不同器官设置窗口宽度以及设计交互式分割的边界损失。除了本文使用的提示策略之外,自然语言可以作为医学图像分割中用户交互的另一种常见形式,但目前缺乏相关数据集。这是我们积极追求的方向,旨在让SAM-Med2D具备医疗领域的自然语言理解能力,满足多样化的用户需求。虽然我们已经在超过 1970 万个掩模上训练了 SAM-Med2D,但与 SAM 的训练数据和分辨率相比仍然存在差距。这导致 SAM-Med2D 可以有效处理常见器官或病变,但缺乏医学领域的“一切”能力。我们计划通过数据引擎生成更大量、更广泛的高质量掩模,使 SAM-Med2D 能够真正分割所有类型的医学图像。

总之,这项工作在大规模医学图像数据集上对 SAM 进行了微调,以使其适应医学图像领域。 SAM-Med2D 取得了令人满意的性能改进和泛化能力。我们的代码和预训练模型将可供研究人员使用,我们希望这项工作能够使医学计算机视觉领域的研究人员受益,为未来的研究和改进提供见解和机会。

  • 12
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Philo`

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值