交互式医学图像分割 (IMIS)通过结合用户交互输入(如点击、边界框或文本提示),将人工智能的高效计算与临床专家的专业经验紧密融合,能够实时生成符合临床需求的高质量分割结果。然而,该领域长期面临数据规模和质量的双重瓶颈,缺乏类似自然图像领域 SA-1B 数据集那样大规模、高密度、标注精确的数据集。这限制了交互式医学图像分割技术的研究深度和实际应用广度。因此,构建大规模、高密度的交互式医学图像分割数据集,不仅是突破当前技术瓶颈的重要环节,更是推动人工智能深度融入医疗实践、赋能临床决策的关键基础。
图1. IMed-361M示例图像
为突破交互式医学图像分割技术瓶颈,推动人工智能深度融入医疗实践,上海人工智能实验室 GMAI 团队重磅推出 IMIS-Bench,一个交互式医学图像分割基准框架,涵盖大规模数据集IMed-361M和IMIS基线模型。
发布主页:https://uni-medical.github.io/IMIS-Benchmark/
相关论文:https://arxiv.org/pdf/2411.12814
代码仓库:https://github.com/uni-medical/IMIS-Bench
数据地址:https://opendatalab.com/GMAI/IMed-361M
一、IMIS-Bench三大亮点
前所未有的数据规模与掩码数量
IMed-361M数据集是迄今为止规模最大、标注最密集的交互式医学图像分割数据集。通过整合来自多个医学数据平台的640万张图像和3.61亿个掩码,覆盖14种成像模态几乎所有解剖目标和病灶,该数据集为深度学习模型的训练和评估提供了前所未有的支持。
图2. IMed-361M数据集基本信息
02 全面的 IMIS 基线模型
IMIS-Net基线支持多种交互输入(如点击、边界框和文本提示),能够模拟连续交互场景,对分割结果进行动态优化。无论在简单场景还是复杂场景中,IMIS-Net都展现出卓越的性能,为医学图像分割任务提供了更高的灵活性和精度,推动了交互式分割技术的新发展。
图3. IMIS-Net的训练过程模拟了K个连续的交互式分割步骤
03 广泛的性能评估与交互策略研究
IMIS-Bench 提供了一个统一的基准框架,对 IMIS-Net 和现有交互式分割方法进行了全面、系统的性能评估。实验表明,IMIS-Net 在多种模态和任务场景下显著超越现有技术。同时,团队还对多种交互策略对分割性能的影响进行了深入研究,为模型的优化和交互设计提供了宝贵的指导。
二、迄今为止规模最大,掩码最丰富的交互式医学图像数据集
01 数据收集与预处理
团队整合了来自全球多个医疗数据平台(如 TCIA1、OpenNeuro2、NITRC3、Grand Challenge4、Synapse5、CodaLab6 和 GitHub7)多个公开可用的医学图像分割数据集,涵盖 2D 和 3D 图像以及各种格式(例如 .jpg、.npy、.nii)。根据SA-Med2D-20M协议对所有收集到的医学图像进行标准化,然后应用以下排除标准:
(1) 排除长宽比大于 1.5 的 3D 切片图像及其相应的掩模;
(2) 排除前景区域占总像素数不到千分之一的蒙版,以保留高质量数据和掩码。然后,手动检查并更正数据集中的错误对齐和信息错误。最后,对于具有多个连通分量的注释,我们根据临床需求对其进行区分和标记,以避免单点交互可能引起的误解。
02 交互式掩码
利用SAM对物体感知能力为每幅图像生成尽可能多的候选掩码。生成的掩码经过阈值过滤、非最大值抑制和去除背景掩模等策略优化,提高掩码的准确性。此外,针对生成的掩模未能充分分离具有模糊边界的结构问题,结合原始ground truth,通过替换和迭代单连通区域等手段进一步校正掩码,并应用形态学操作去除噪音和填补小孔。最终获得了2.73亿个“交互式掩模”,可用于训练交互式分割模型,覆盖几乎所有可识别的医学图像中的对象。
03 统计与分析
IMed-361M数据集是迄今为止最大、公开可用的多模态交互式医学图像分割数据集,包含640万张图像、8760万个ground truth和2.734亿个交互式掩码,平均每张图像56个掩码。该数据集覆盖14种成像模态和204个分割目标,包括各主要器官及病变,涉及人体几乎所有部位。图像分辨率主要集中在256×256到1024×1024之间,确保研究场景的广泛适应性,大多数掩模占用的图像面积不足2%,反映了医学分割的细粒度特性。手动去除不相关的标注并应用过滤策略,仅保留有效掩模,从而增强模型在不同场景中的适应能力。
三、实验结果
01 与其他交互式分割模型单次交互的性能对比
图4. IMIS-Net与其他交互式分割模型单次交互的性能比较
02 交互策略对模型的影响
图5. 不同交互策略对交互式分割模型的性能影响
03 Zero-shot性能
图6. 在三个外部数据集上的Zero-shot性能
04 数据规模对IMIS-Net的影响
图7. 数据规模对IMIS-Net的影响
05 可视化结果
图8. 定性分析结果
四、总结
本研究提出了IMed-361M,一个专注于交互式医学图像分割的基准数据集。该数据集包含了各种模态的大量医学图像、广泛的分割场景以及密集的掩码,超越了现有仅限于单一任务或简单集成的数据集。利用该数据资源,团队开发了通用的交互式医学图像分割基线模型IMIS-Net,使用户能够通过交互方式(包括点击、边界框、文本提示及其组合)生成符合临床需求的分割结果。与现有基础模型的对比实验结果表明,IMIS-Net在性能上具有显著优势,并在未见过的场景中展现出较强的可迁移性。值得注意的是,IMIS-Net通常需要更少的交互即可达到相当的性能,提高了其在实际应用中的实用性。
IMed-361M 数据集将极大地促进医学影像领域基础模型的发展,并为不同模型之间的公平评估奠定基础。IMIS-Net 提供了通用的技术支持,可应用于多种临床场景,加速人工智能技术在医疗领域的广泛应用。但这项工作仍面临一些挑战。例如,如何更有效地获取交互式掩码的语义信息,以及将这一方法扩展到更全面和更精细的医学图像分析场景,仍是未来需要进一步探索和改进的方向。
欢迎医院、研究院、高校、公司等机构的合作,请邮件联系hejunjun@pjlab.org.cn
如果您使用代码、模型或数据,请引用GMAI的论文:
@article{cheng2024interactivemedicalimagesegmentation,
title={Interactive Medical Image Segmentation: A Benchmark Dataset and Baseline},
author={Junlong Cheng and Bin Fu and Jin Ye and Guoan Wang and Tianbin Li and Haoyu Wang and Ruoyu Li and He Yao and Junren Chen and JingWen Li and Yanzhou Su and Min Zhu and Junjun He},
year={2024},
eprint={2411.12814},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2411.12814},
}
更多精彩数据内容,请访问OpenDataLab:https://opendatalab.org.cn/