Title
题目
MedCLIP-SAMv2: Towards universal text-driven medical imagesegmentation
MedCLIP-SAMv2:迈向通用文本驱动的医学图像分割
01
文献速递介绍
随着放射技术日益普及,对精准、高效的医学图像分割技术的需求不断增长,以支持各类疾病的研究、诊断与治疗(Siuly & Zhang, 2016)。深度学习(DL)技术已成为该领域的最先进(SOTA)方法;然而,这些技术面临三大关键挑战,阻碍了其在临床中的广泛应用。**首先**,大规模、标注完善的数据集稀缺,这是深度学习模型开发的主要障碍。**其次**,交互性与可解释性的缺失降低了人们对这些方法的信任度。**最后**,大多数医学深度学习模型是针对特定任务和成像对比度/模态训练的,灵活性受限。尽管已有多种自监督和弱监督方法(Baevski et al., 2023;Chen et al., 2020;Taleb et al., 2021)被提出以提高训练效率,且可解释人工智能(XAI)技术(包括不确定性估计(Loquercio et al., 2020;Liu et al., 2020)和显著图(Arun et al., 2021;Bae et al., 2020))也在积极研究中,但跨域泛化能力仍是一大挑战。尽管做出了这些努力,现有模型往往难以在不同模态/任务间实现泛化,且缺乏交互式临床部署所需的灵活性。要解决这些局限性,需要一个能够在零样本设置下运行、适配多种成像类型/任务并融入人工指导的框架。近年来,对比语言-图像预训练模型(CLIP)(Radford et al., 2021)、任意分割模型(SAM)(Kirillov et al., 2023)等基础模型的出现,为交互式、通用型医学图像分割开辟了道路。已有多个研究团队将CLIP和SAM适配于放射学任务,开发出BiomedCLIP(Zhang et al., 2023)和MedSAM(Ma et al., 2024)等模型,这些模型均在海量生物医学数据上进行了预训练。此类模型有望实现跨模态对齐与分割灵活性,但要充分释放其在临床成像任务中的潜力,仍需进一步适配与微调。具体而言,为减少SAM模型对专业人员精准绘制视觉提示(如点、边界框)的依赖,CLIP可提供一种替代机制——通过自然语言与用户交互来生成视觉提示,这种方式更灵活、直观且可扩展。尽管CLIP训练主要在全局层面实现图文映射,但相关研究(Fu et al., 2024)表明,这类模型能够编码丰富的图像特征表示。这使得我们能够建立全局文本信息与局部视觉特征之间的关联(Zhou et al., 2022;Rao et al., 2022),进而将其用于高效的零样本医学图像分割,即便在数据稀缺场景下也能实现更广泛的应用——这一点我们已在2024年国际医学图像计算与计算机辅助干预会议(MICCAI 2024)的论文(Koleilat et al., 2024b)中首次探索。然而,由于医学描述的复杂性和诊断成像特征的细微性,将CLIP在自然图像领域的成功迁移到放射学领域并非易事。尽管将CLIP适配到医学图像领域看似具有吸引力,但这一过程难度较大,且需要大量真值标签才能有效微调模型,尤其是针对分割这类下游任务(Poudel et al., 2024)。医学成像领域中大规模、高质量标注数据集的缺乏,进一步加剧了这一挑战。这促使研究人员采用BiomedCLIP(Zhang et al., 2023)等生物医学领域专用模型变体——这类模型更适合捕捉与疾病相关的放射学特征表示,同时也推动了高效微调损失函数的研发,以在病理定位、分割、诊断等放射学应用中实现更有效的跨模态学习。另一方面,随着对SAM关注度的提升,为减少其分割任务对视觉提示(如点和/或边界框)的依赖(这类提示需要专业临床知识),近年来出现了多种新方法:无需此类提示即可微调SAM(Chen et al., 2024;Hu et al., 2023)、通过分类任务的类激活图(CAM)生成提示(Li et al., 2025, 2023b;Liu & Huang, 2024)、利用弱监督优化其输出(Yang & Gong, 2024;Chen et al., 2023;Huang et al., 2023)。这些方法表明,研究人员对“构建融合视觉-语言理解与交互式分割的框架”的兴趣日益浓厚,并开辟了新的研究方向,摆脱了对人工绘制提示的依赖。近期,为解决上述挑战,我们在2024年MICCAI会议(Koleilat et al., 2024b)中提出了MedCLIP-SAM框架。该框架利用BiomedCLIP(Zhang et al., 2023)生成基于文本的边界框提示,为SAM(Kirillov et al., 2023)提供支持,以实现零样本和弱监督设置下的交互式、通用型医学图像分割。在初步取得成功后,有必要对该框架进行进一步改进与探索,以提升性能,并更深入地理解CLIP和SAM这两种基础模型在医学成像应用中的作用。因此,本文提出**MedCLIP-SAMv2**——这是一个显著增强的框架,在MedCLIP-SAM的基础上,通过优化CLIP与SAM的融合方式、基于显著图的提示生成以及含不确定性感知的弱监督,更好地发挥这些基础模型的协同作用,实现通用、可扩展的医学分割。具体而言,与原始方法相比,新提出的MedCLIP-SAMv2框架的主要升级包括:- 研究了适用于CLIP模型的多种显著图生成技术,
-1

最低0.47元/天 解锁文章
5185

被折叠的 条评论
为什么被折叠?



