MedCLIP-SAMv2：迈向通用文本驱动的医学图像分割|文献速递-深度学习人工智能医疗图像

-1

原创

已于 2025-08-28 17:36:05 修改 · 781 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#文献 #论文阅读 #医学生

于 2025-08-28 17:24:50 首次发布

Title

题目

MedCLIP-SAMv2: Towards universal text-driven medical imagesegmentation

MedCLIP-SAMv2：迈向通用文本驱动的医学图像分割

文献速递介绍

随着放射技术日益普及，对精准、高效的医学图像分割技术的需求不断增长，以支持各类疾病的研究、诊断与治疗（Siuly & Zhang, 2016）。深度学习（DL）技术已成为该领域的最先进（SOTA）方法；然而，这些技术面临三大关键挑战，阻碍了其在临床中的广泛应用。**首先**，大规模、标注完善的数据集稀缺，这是深度学习模型开发的主要障碍。**其次**，交互性与可解释性的缺失降低了人们对这些方法的信任度。**最后**，大多数医学深度学习模型是针对特定任务和成像对比度/模态训练的，灵活性受限。尽管已有多种自监督和弱监督方法（Baevski et al., 2023；Chen et al., 2020；Taleb et al., 2021）被提出以提高训练效率，且可解释人工智能（XAI）技术（包括不确定性估计（Loquercio et al., 2020；Liu et al., 2020）和显著图（Arun et al., 2021；Bae et al., 2020））也在积极研究中，但跨域泛化能力仍是一大挑战。尽管做出了这些努力，现有模型往往难以在不同模态/任务间实现泛化，且缺乏交互式临床部署所需的灵活性。要解决这些局限性，需要一个能够在零样本设置下运行、适配多种成像类型/任务并融入人工指导的框架。近年来，对比语言-图像预训练模型（CLIP）（Radford et al., 2021）、任意分割模型（SAM）（Kirillov et al., 2023）等基础模型的出现，为交互式、通用型医学图像分割开辟了道路。已有多个研究团队将CLIP和SAM适配于放射学任务，开发出BiomedCLIP（Zhang et al., 2023）和MedSAM（Ma et al., 2024）等模型，这些模型均在海量生物医学数据上进行了预训练。此类模型有望实现跨模态对齐与分割灵活性，但要充分释放其在临床成像任务中的潜力，仍需进一步适配与微调。具体而言，为减少SAM模型对专业人员精准绘制视觉提示（如点、边界框）的依赖，CLIP可提供一种替代机制——通过自然语言与用户交互来生成视觉提示，这种方式更灵活、直观且可扩展。尽管CLIP训练主要在全局层面实现图文映射，但相关研究（Fu et al., 2024）表明，这类模型能够编码丰富的图像特征表示。这使得我们能够建立全局文本信息与局部视觉特征之间的关联（Zhou et al., 2022；Rao et al., 2022），进而将其用于高效的零样本医学图像分割，即便在数据稀缺场景下也能实现更广泛的应用——这一点我们已在2024年国际医学图像计算与计算机辅助干预会议（MICCAI 2024）的论文（Koleilat et al., 2024b）中首次探索。然而，由于医学描述的复杂性和诊断成像特征的细微性，将CLIP在自然图像领域的成功迁移到放射学领域并非易事。尽管将CLIP适配到医学图像领域看似具有吸引力，但这一过程难度较大，且需要大量真值标签才能有效微调模型，尤其是针对分割这类下游任务（Poudel et al., 2024）。医学成像领域中大规模、高质量标注数据集的缺乏，进一步加剧了这一挑战。这促使研究人员采用BiomedCLIP（Zhang et al., 2023）等生物医学领域专用模型变体——这类模型更适合捕捉与疾病相关的放射学特征表示，同时也推动了高效微调损失函数的研发，以在病理定位、分割、诊断等放射学应用中实现更有效的跨模态学习。另一方面，随着对SAM关注度的提升，为减少其分割任务对视觉提示（如点和/或边界框）的依赖（这类提示需要专业临床知识），近年来出现了多种新方法：无需此类提示即可微调SAM（Chen et al., 2024；Hu et al., 2023）、通过分类任务的类激活图（CAM）生成提示（Li et al., 2025, 2023b；Liu & Huang, 2024）、利用弱监督优化其输出（Yang & Gong, 2024；Chen et al., 2023；Huang et al., 2023）。这些方法表明，研究人员对“构建融合视觉-语言理解与交互式分割的框架”的兴趣日益浓厚，并开辟了新的研究方向，摆脱了对人工绘制提示的依赖。近期，为解决上述挑战，我们在2024年MICCAI会议（Koleilat et al., 2024b）中提出了MedCLIP-SAM框架。该框架利用BiomedCLIP（Zhang et al., 2023）生成基于文本的边界框提示，为SAM（Kirillov et al., 2023）提供支持，以实现零样本和弱监督设置下的交互式、通用型医学图像分割。在初步取得成功后，有必要对该框架进行进一步改进与探索，以提升性能，并更深入地理解CLIP和SAM这两种基础模型在医学成像应用中的作用。因此，本文提出**MedCLIP-SAMv2**——这是一个显著增强的框架，在MedCLIP-SAM的基础上，通过优化CLIP与SAM的融合方式、基于显著图的提示生成以及含不确定性感知的弱监督，更好地发挥这些基础模型的协同作用，实现通用、可扩展的医学分割。具体而言，与原始方法相比，新提出的MedCLIP-SAMv2框架的主要升级包括：- 研究了适用于CLIP模型的多种显著图生成技术，

最低0.47元/天解锁文章