小罗碎碎念
今天这期推送和大家系统梳理一下【影像组学】领域的【51个】重要公开数据集。
数据集覆盖肝脏、肺、脑、乳腺等多个器官,涉及肿瘤、心血管疾病、先天性疾病等多种病理类型,并囊括CT、MRI、X光、超声等多样化影像模态,例如肝肿瘤分割基准数据集LiTS、肺结节检测经典数据LUNA16,以及脑肿瘤分割核心BRATS系列,可支持算法开发、临床转化及跨学科研究。
研究者可根据具体需求选择适用场景:
- 通用分割任务可参考MSD(多器官)或Kits19(肾肿瘤)
- 临床诊断工具开发可依托标注精细的CheXpert(胸部X光)或RSNA(颅内出血)
- 多组学分析则可利用TCGA-LIHC(肝癌影像与基因组数据)
需注意数据合规性、标注一致性及样本平衡问题,优先选择持续更新的数据集(如BRATS2021),同时警惕地域代表性不足(如亚非拉数据稀缺)和小样本挑战(如胰腺癌PDMR数据集)。
未来方向建议聚焦多模态融合(如Lung-PET-CT-Dx联合PET/CT)、弱监督学习(针对高标注成本场景)及跨数据集泛化验证,以提升模型鲁棒性。
对于小众领域,可结合迁移学习或联邦学习弥补数据短板,推动医学AI从算法创新向临床实用转化。
交流群
欢迎大家加入【医学AI】交流群,本群设立的初衷是提供交流平台,方便大家后续课题合作。
目前小罗全平台关注量52,000+
,交流群总成员1100+
,大部分来自国内外顶尖院校/医院,期待您的加入!!
由于近期入群推销人员较多,已开启入群验证,扫码添加我的联系方式,备注姓名-单位-科室/专业
,即可邀您入群。
知识星球
如需获取推文中提及的各种资料,欢迎加入我的知识星球!
阅前必读
注意,由于整理数据集需要花费大量时间,所以采取付费阅读的形式,绝对让你物超所值,你通过这一篇推送,可以帮助你节省大量自己整理的时间。
【1】阅读方式1:知识星球(推荐)
已订阅星球用户可以直接点击链接获取内容(https://t.zsxq.com/FlIFw),并且可以在星球中提问,我会给出详细解答。此外,星球是按年付费,更划算!
注意,新订阅用户有阅读限制,三天后才可查看所有内容!
【2】阅读方式2:微信推送付费阅读
如果只对单篇内容感兴趣,可以直接支付本篇文章费用。
一、数据集覆盖范围
1-1:按器官/疾病分类
- 肝脏:LiTS(肝脏肿瘤分割)、Sliver07(肝脏分割)、……。
- 肺部:LoLa11(肺分割)、StructSeg2019(鼻咽癌/肺癌)、……。
- 脑部:BRATS系列(脑肿瘤分割与生存预测)、……。
- 乳腺:CBIS-DDSM(乳腺X光)、……。
- 其他:Kits19(肾肿瘤)、……。
1-2:特殊应用场景
- 心血管:ASOCA(冠状动脉分割)、……。
- 眼科:DRIVE、IDRiD(糖尿病视网膜病变)……。
- 骨骼与关节:Verse(脊椎分割)、……。
二、重点领域与代表性数据集
2-1:肝脏相关
- LiTS:肝脏肿瘤分割的基准数据集,常用于肝癌检测算法开发。
- CHAOS:多器官(肝/肾/脾)分割数据集,适合跨器官对比研究。
- TCGA-LIHC:结合肝癌的影像与基因组数据,适用于多组学联合分析。
2-2:肺部相关
- LUNA16:肺结节检测的经典数据集,标注精细,被广泛用于肺癌筛查模型训练。
- LIDC-IDRI:提供肺部肿瘤的多样本、多标注数据,支持鲁棒性研究。
- QIN Lung CT:针对非小细胞肺癌的影像组学特征提取,适合预后预测研究。
2-3:脑部相关
- BRATS系列(2013-2021):脑肿瘤分割的核心数据集,逐年更新技术挑战(如胶质瘤亚区划分)。
- iSeg2019:婴儿脑部MR数据,关注早期发育异常检测。
2-4:乳腺癌与前列腺癌
- CBIS-DDSM:乳腺X光数据集,包含钙化与肿块标注,用于良恶性分类。
- QIN-PROSTATE-Repeatability:前列腺癌影像重复性研究数据集,适合量化分析。
2-5:其他特色数据集
- EchoNet:动态超声心动图视频数据,支持心脏功能评估。
- SARAS-MESAD:内窥镜影像数据集,适用于消化道疾病检测。
- Verse:脊椎CT数据集,可用于骨质疏松或骨折分析。
三、数据特点与研究方向
3-1:模态多样性
- CT:如LIDC-IDRI(肺部肿瘤)、CT COLONOGRAPHY(结肠癌)。
- MRI:如BRATS(脑肿瘤)、RIDER Breast MRI(乳腺)。
- X光:CheXpert(胸部X光)、MURA-1.1(骨骼X光)。
- 超声与PET:EchoNet(超声心动图)、Lung-PET-CT-Dx(PET-CT融合影像)。
3-2:标注与任务类型
- 分割任务:如LiTS(肝脏肿瘤)、BRATS(脑肿瘤)、ASOCA(冠状动脉)。
- 分类与检测:如LUNA16(肺结节良恶性)、SIIM-ISIC(皮肤癌分类)。
- 多模态分析:如Lung-PET-CT-Dx(CT与PET结合)、MSD(多器官分割)。
四、使用建议
- 算法开发:MSD(多器官分割)、BRATS(脑肿瘤分割)适合测试模型泛化能力。
- 临床转化:TCGA-LIHC(肝癌影像与基因组关联)、Lung-PET-CT-Dx(肺癌诊断)支持预后预测研究。
- 教育用途:DRIVE(眼底照片)、CheXpert(胸部X光)适合初学者练习标注与分类。
五、局限性分析
- 地域代表性不足:多数数据集来自欧美,缺乏亚非拉人群数据(天池肺部CT是例外)。
- 小样本问题:如PDMR-833975-119-R(胰腺癌)样本量较小,需结合迁移学习。
- 模态局限性:如眼底照片数据集(DRIVE、IDRiD)多为静态图像,缺乏动态血流信息。
六、未来研究方向
- 多模态融合:利用如Lung-PET-CT-Dx(PET/CT联合)开发多模态诊断模型。
- 弱监督学习:针对标注成本高的数据集(如StructSeg2019),探索弱监督方法。
- 泛化性验证:跨数据集验证(如肝脏LiTS vs. 3D-IRCADb)以提升模型鲁棒性。
七、数据获取
请前往同名公众号/知识星球获取。
结束语
本期推文的内容就到这里啦,如果需要获取医学AI领域的最新发展动态,请关注小罗的推送!如需进一步深入研究,获取相关资料,欢迎加入我的知识星球!