MedCLIP-SAMv2:迈向通用文本驱动的医学图像分割|文献速递-深度学习人工智能医疗图像

-1

Title

题目

MedCLIP-SAMv2: Towards universal text-driven medical imagesegmentation

MedCLIP-SAMv2:迈向通用文本驱动的医学图像分割

01

文献速递介绍

随着放射技术日益普及,对精准、高效的医学图像分割技术的需求不断增长,以支持各类疾病的研究、诊断与治疗(Siuly & Zhang, 2016)。深度学习(DL)技术已成为该领域的最先进(SOTA)方法;然而,这些技术面临三大关键挑战,阻碍了其在临床中的广泛应用。**首先**,大规模、标注完善的数据集稀缺,这是深度学习模型开发的主要障碍。**其次**,交互性与可解释性的缺失降低了人们对这些方法的信任度。**最后**,大多数医学深度学习模型是针对特定任务和成像对比度/模态训练的,灵活性受限。尽管已有多种自监督和弱监督方法(Baevski et al., 2023;Chen et al., 2020;Taleb et al., 2021)被提出以提高训练效率,且可解释人工智能(XAI)技术(包括不确定性估计(Loquercio et al., 2020;Liu et al., 2020)和显著图(Arun et al., 2021;Bae et al., 2020))也在积极研究中,但跨域泛化能力仍是一大挑战。尽管做出了这些努力,现有模型往往难以在不同模态/任务间实现泛化,且缺乏交互式临床部署所需的灵活性。要解决这些局限性,需要一个能够在零样本设置下运行、适配多种成像类型/任务并融入人工指导的框架。近年来,对比语言-图像预训练模型(CLIP)(Radford et al., 2021)、任意分割模型(SAM)(Kirillov et al., 2023)等基础模型的出现,为交互式、通用型医学图像分割开辟了道路。已有多个研究团队将CLIP和SAM适配于放射学任务,开发出BiomedCLIP(Zhang et al., 2023)和MedSAM(Ma et al., 2024)等模型,这些模型均在海量生物医学数据上进行了预训练。此类模型有望实现跨模态对齐与分割灵活性,但要充分释放其在临床成像任务中的潜力,仍需进一步适配与微调。具体而言,为减少SAM模型对专业人员精准绘制视觉提示(如点、边界框)的依赖,CLIP可提供一种替代机制——通过自然语言与用户交互来生成视觉提示,这种方式更灵活、直观且可扩展。尽管CLIP训练主要在全局层面实现图文映射,但相关研究(Fu et al., 2024)表明,这类模型能够编码丰富的图像特征表示。这使得我们能够建立全局文本信息与局部视觉特征之间的关联(Zhou et al., 2022;Rao et al., 2022),进而将其用于高效的零样本医学图像分割,即便在数据稀缺场景下也能实现更广泛的应用——这一点我们已在2024年国际医学图像计算与计算机辅助干预会议(MICCAI 2024)的论文(Koleilat et al., 2024b)中首次探索。然而,由于医学描述的复杂性和诊断成像特征的细微性,将CLIP在自然图像领域的成功迁移到放射学领域并非易事。尽管将CLIP适配到医学图像领域看似具有吸引力,但这一过程难度较大,且需要大量真值标签才能有效微调模型,尤其是针对分割这类下游任务(Poudel et al., 2024)。医学成像领域中大规模、高质量标注数据集的缺乏,进一步加剧了这一挑战。这促使研究人员采用BiomedCLIP(Zhang et al., 2023)等生物医学领域专用模型变体——这类模型更适合捕捉与疾病相关的放射学特征表示,同时也推动了高效微调损失函数的研发,以在病理定位、分割、诊断等放射学应用中实现更有效的跨模态学习。另一方面,随着对SAM关注度的提升,为减少其分割任务对视觉提示(如点和/或边界框)的依赖(这类提示需要专业临床知识),近年来出现了多种新方法:无需此类提示即可微调SAM(Chen et al., 2024;Hu et al., 2023)、通过分类任务的类激活图(CAM)生成提示(Li et al., 2025, 2023b;Liu & Huang, 2024)、利用弱监督优化其输出(Yang & Gong, 2024;Chen et al., 2023;Huang et al., 2023)。这些方法表明,研究人员对“构建融合视觉-语言理解与交互式分割的框架”的兴趣日益浓厚,并开辟了新的研究方向,摆脱了对人工绘制提示的依赖。近期,为解决上述挑战,我们在2024年MICCAI会议(Koleilat et al., 2024b)中提出了MedCLIP-SAM框架。该框架利用BiomedCLIP(Zhang et al., 2023)生成基于文本的边界框提示,为SAM(Kirillov et al., 2023)提供支持,以实现零样本和弱监督设置下的交互式、通用型医学图像分割。在初步取得成功后,有必要对该框架进行进一步改进与探索,以提升性能,并更深入地理解CLIP和SAM这两种基础模型在医学成像应用中的作用。因此,本文提出**MedCLIP-SAMv2**——这是一个显著增强的框架,在MedCLIP-SAM的基础上,通过优化CLIP与SAM的融合方式、基于显著图的提示生成以及含不确定性感知的弱监督,更好地发挥这些基础模型的协同作用,实现通用、可扩展的医学分割。具体而言,与原始方法相比,新提出的MedCLIP-SAMv2框架的主要升级包括:- 研究了适用于CLIP模型的多种显著图生成技术,

Traceback (most recent call last): File "/root/siton-data-liangzhuominData/anaconda3/envs/medclipsam/lib/python3.9/runpy.py", line 197, in _run_module_as_main return _run_code(code, main_globals, None, File "/root/siton-data-liangzhuominData/anaconda3/envs/medclipsam/lib/python3.9/runpy.py", line 87, in _run_code exec(code, run_globals) File "/root/siton-data-liangzhuominData/wyh/MedCLIP-SAMv2-main/MedCLIP-SAMv2-main/biomedclip_finetuning/open_clip/src/open_clip_train/main.py", line 521, in <module> main(sys.argv[1:]) File "/root/siton-data-liangzhuominData/wyh/MedCLIP-SAMv2-main/MedCLIP-SAMv2-main/biomedclip_finetuning/open_clip/src/open_clip_train/main.py", line 223, in main model, preprocess_train, preprocess_val = create_model_and_transforms( File "/root/siton-data-liangzhuominData/wyh/MedCLIP-SAMv2-main/MedCLIP-SAMv2-main/biomedclip_finetuning/open_clip/src/open_clip/factory.py", line 501, in create_model_and_transforms model = create_model( File "/root/siton-data-liangzhuominData/wyh/MedCLIP-SAMv2-main/MedCLIP-SAMv2-main/biomedclip_finetuning/open_clip/src/open_clip/factory.py", line 292, in create_model config = _get_hf_config(model_id, cache_dir=cache_dir) File "/root/siton-data-liangzhuominData/wyh/MedCLIP-SAMv2-main/MedCLIP-SAMv2-main/biomedclip_finetuning/open_clip/src/open_clip/factory.py", line 86, in _get_hf_config config_path = download_pretrained_from_hf( File "/root/siton-data-liangzhuominData/wyh/MedCLIP-SAMv2-main/MedCLIP-SAMv2-main/biomedclip_finetuning/open_clip/src/open_clip/pretrained.py", line 755, in download_pretrained_from_hf raise FileNotFoundError(f"Failed to download file ({filename}) for {model_id}. Last error: {e}") FileNotFoundError: Failed to download file (open_clip_config.json) for microsoft/BiomedCLIP-PubMedBERT_256-vit_base_patch16_224. Last error: An error happened while trying to locate the file on the Hub and we cannot find the requested files in the local cache. Please check your connection and try again or make sure your Internet connection is on.
07-08
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值