亲测有效,影像组学领域的51个公开数据集汇总,节省大量收集数据的时间

小罗碎碎念

今天这期推送和大家系统梳理一下【影像组学】领域的【51个】重要公开数据集。

数据集覆盖肝脏、肺、脑、乳腺等多个器官,涉及肿瘤、心血管疾病、先天性疾病等多种病理类型,并囊括CT、MRI、X光、超声等多样化影像模态,例如肝肿瘤分割基准数据集LiTS、肺结节检测经典数据LUNA16,以及脑肿瘤分割核心BRATS系列,可支持算法开发、临床转化及跨学科研究。

数据表格展示

研究者可根据具体需求选择适用场景:

  1. 通用分割任务可参考MSD(多器官)或Kits19(肾肿瘤)
  2. 临床诊断工具开发可依托标注精细的CheXpert(胸部X光)或RSNA(颅内出血)
  3. 多组学分析则可利用TCGA-LIHC(肝癌影像与基因组数据)

需注意数据合规性、标注一致性及样本平衡问题,优先选择持续更新的数据集(如BRATS2021),同时警惕地域代表性不足(如亚非拉数据稀缺)和小样本挑战(如胰腺癌PDMR数据集)。

未来方向建议聚焦多模态融合(如Lung-PET-CT-Dx联合PET/CT)、弱监督学习(针对高标注成本场景)及跨数据集泛化验证,以提升模型鲁棒性。

对于小众领域,可结合迁移学习或联邦学习弥补数据短板,推动医学AI从算法创新向临床实用转化。


交流群

欢迎大家加入【医学AI】交流群,本群设立的初衷是提供交流平台,方便大家后续课题合作。

目前小罗全平台关注量52,000+,交流群总成员1100+,大部分来自国内外顶尖院校/医院,期待您的加入!!

由于近期入群推销人员较多,已开启入群验证,扫码添加我的联系方式,备注姓名-单位-科室/专业,即可邀您入群。


知识星球

如需获取推文中提及的各种资料,欢迎加入我的知识星球!


阅前必读

注意,由于整理数据集需要花费大量时间,所以采取付费阅读的形式,绝对让你物超所值,你通过这一篇推送,可以帮助你节省大量自己整理的时间。

【1】阅读方式1:知识星球(推荐)

已订阅星球用户可以直接点击链接获取内容(https://t.zsxq.com/FlIFw),并且可以在星球中提问,我会给出详细解答。此外,星球是按年付费,更划算!

注意,新订阅用户有阅读限制,三天后才可查看所有内容!

【2】阅读方式2:微信推送付费阅读

如果只对单篇内容感兴趣,可以直接支付本篇文章费用。


一、数据集覆盖范围

1-1:按器官/疾病分类

  • 肝脏:LiTS(肝脏肿瘤分割)、Sliver07(肝脏分割)、……。
  • 肺部:LoLa11(肺分割)、StructSeg2019(鼻咽癌/肺癌)、……。
  • 脑部:BRATS系列(脑肿瘤分割与生存预测)、……。
  • 乳腺:CBIS-DDSM(乳腺X光)、……。
  • 其他:Kits19(肾肿瘤)、……。

1-2:特殊应用场景

  • 心血管:ASOCA(冠状动脉分割)、……。
  • 眼科:DRIVE、IDRiD(糖尿病视网膜病变)……。
  • 骨骼与关节:Verse(脊椎分割)、……。

二、重点领域与代表性数据集

2-1:肝脏相关

  • LiTS:肝脏肿瘤分割的基准数据集,常用于肝癌检测算法开发。
  • CHAOS:多器官(肝/肾/脾)分割数据集,适合跨器官对比研究。
  • TCGA-LIHC:结合肝癌的影像与基因组数据,适用于多组学联合分析。

2-2:肺部相关

  • LUNA16:肺结节检测的经典数据集,标注精细,被广泛用于肺癌筛查模型训练。
  • LIDC-IDRI:提供肺部肿瘤的多样本、多标注数据,支持鲁棒性研究。
  • QIN Lung CT:针对非小细胞肺癌的影像组学特征提取,适合预后预测研究。

2-3:脑部相关

  • BRATS系列(2013-2021):脑肿瘤分割的核心数据集,逐年更新技术挑战(如胶质瘤亚区划分)。
  • iSeg2019:婴儿脑部MR数据,关注早期发育异常检测。

2-4:乳腺癌与前列腺癌

  • CBIS-DDSM:乳腺X光数据集,包含钙化与肿块标注,用于良恶性分类。
  • QIN-PROSTATE-Repeatability:前列腺癌影像重复性研究数据集,适合量化分析。

2-5:其他特色数据集

  • EchoNet:动态超声心动图视频数据,支持心脏功能评估。
  • SARAS-MESAD:内窥镜影像数据集,适用于消化道疾病检测。
  • Verse:脊椎CT数据集,可用于骨质疏松或骨折分析。

三、数据特点与研究方向

3-1:模态多样性

  • CT:如LIDC-IDRI(肺部肿瘤)、CT COLONOGRAPHY(结肠癌)。
  • MRI:如BRATS(脑肿瘤)、RIDER Breast MRI(乳腺)。
  • X光:CheXpert(胸部X光)、MURA-1.1(骨骼X光)。
  • 超声与PET:EchoNet(超声心动图)、Lung-PET-CT-Dx(PET-CT融合影像)。

3-2:标注与任务类型

  • 分割任务:如LiTS(肝脏肿瘤)、BRATS(脑肿瘤)、ASOCA(冠状动脉)。
  • 分类与检测:如LUNA16(肺结节良恶性)、SIIM-ISIC(皮肤癌分类)。
  • 多模态分析:如Lung-PET-CT-Dx(CT与PET结合)、MSD(多器官分割)。

四、使用建议

  • 算法开发:MSD(多器官分割)、BRATS(脑肿瘤分割)适合测试模型泛化能力。
  • 临床转化:TCGA-LIHC(肝癌影像与基因组关联)、Lung-PET-CT-Dx(肺癌诊断)支持预后预测研究。
  • 教育用途:DRIVE(眼底照片)、CheXpert(胸部X光)适合初学者练习标注与分类。

五、局限性分析

  • 地域代表性不足:多数数据集来自欧美,缺乏亚非拉人群数据(天池肺部CT是例外)。
  • 小样本问题:如PDMR-833975-119-R(胰腺癌)样本量较小,需结合迁移学习。
  • 模态局限性:如眼底照片数据集(DRIVE、IDRiD)多为静态图像,缺乏动态血流信息。

六、未来研究方向

  • 多模态融合:利用如Lung-PET-CT-Dx(PET/CT联合)开发多模态诊断模型。
  • 弱监督学习:针对标注成本高的数据集(如StructSeg2019),探索弱监督方法。
  • 泛化性验证:跨数据集验证(如肝脏LiTS vs. 3D-IRCADb)以提升模型鲁棒性。

七、数据获取

请前往同名公众号/知识星球获取。


结束语

本期推文的内容就到这里啦,如果需要获取医学AI领域的最新发展动态,请关注小罗的推送!如需进一步深入研究,获取相关资料,欢迎加入我的知识星球!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值