面向病理AI研究者的数据集汇总与应用指南

小罗碎碎念

推文速览

今天这期推文系统整理了病理组学领域的41个公开数据集,每一个数据集链接我都测试过,截至发文为止,都可以正常访问。数据集涵盖癌症基因组学、蛋白质组学、病理图像分析、治疗反应评估等多个方向。

具体可分类为:

  1. 多组学整合数据集(如TCGA、CPTAC、PanCancer-TCGA),整合基因组、转录组、蛋白质组等多维度数据,支持癌症分子机制研究;
  2. 病理图像分析数据集(如PANDA、CAMELYON系列、BreakHis),提供标注的病理切片图像,用于训练肿瘤检测、分级和淋巴结转移识别算法;
  3. 治疗与预后数据集(如O.B.R.、Post-NAT-BRCA、PanCancer-TIL),包含治疗前后影像与临床信息,助力疗效预测和免疫治疗研究;
  4. 细分癌种数据集(如CRC-100K、ESCA、CCRCC-TCGA-HEL),聚焦结直肠癌、食管癌等特定癌症,支持精准诊断模型开发。

数据集在科研中的应用场景

这些数据集为病理AI研究提供了丰富的资源:

  • 模型开发与验证:例如利用PANDA的前列腺癌病理图像训练分级模型,或通过CAMELYON16/17优化淋巴结转移检测算法;
  • 多模态分析:结合MIDOG2022的分子与影像数据,探索卵巢癌的分子-影像关联,或使用PanCancer-TCGA进行跨癌种生物标志物挖掘;
  • 临床转化研究:基于O.B.R.数据集预测贝伐珠单抗疗效,或通过CRC-MSI开发微卫星不稳定性预测工具,指导个体化治疗。

根据项目需求灵活选择数据集

  • 基础算法研究:推荐PCAM、PathVQA等标准化数据集,用于图像分类和视觉问答模型的训练;
  • 临床问题驱动:针对乳腺癌亚型分类,可结合BRACS和PAIP系列数据,提升模型泛化性;
  • 工具链构建:利用ARCH、Janowczyk的细胞核分割数据完善预处理流程,或通过HistGen实现病理报告的自动化生成。

文末的汇总表格(含序号、名称及链接)便于快速定位资源,建议结合知识星球或交流群获取最新动态,一起探索医学AI的最新进展!


交流群

欢迎大家加入【医学AI】交流群,本群设立的初衷是提供交流平台,方便大家后续课题合作。

目前小罗全平台关注量52,000+,交流群总成员1100+,大部分来自国内外顶尖院校/医院,期待您的加入!!

由于近期入群推销人员较多,已开启入群验证,扫码添加我的联系方式,备注姓名-单位-科室/专业,即可邀您入群


知识星球

如需获取推文中提及的各种资料,欢迎加入我的知识星球!

已订阅星球用户无需二次付费,可以直接获取本篇推送的pdf版本,并且可以在星球中向我提问!


一、数据集详细介绍

1-1:TCGA

(The Cancer Genome Atlas)

TCGA 是一个全面的癌症基因组学数据库,包含了多种癌症类型的基因组、转录组、蛋白质组等多维度数据。这些数据来自大量患者样本,为癌症的分子机制研究、生物标志物发现以及个性化医疗提供了丰富的资源。

image-20250313083311359

研究人员可以通过 TCGA 数据了解癌症的遗传变异、基因表达调控、蛋白质合成等多方面信息,进而深入探究癌症的发生、发展和转移机制。


1-2:CPTAC

(Clinical Proteomic Tumor Analysis Consortium)

CPTAC 致力于生成和共享临床蛋白质组学数据,以加深对癌症生物学的理解。该数据集包含了多种癌症类型的蛋白质组数据,与基因组和转录组数据相结合,能够从多个层面揭示癌症的分子特征。

image-20250313083424676

通过分析这些数据,研究人员可以发现潜在的蛋白质标志物,探索癌症治疗的新靶点,并进一步了解癌症的异质性和复杂性。


1-3:PANDA

(Prostate cANcer Digital Archives)

PANDA 数据集专注于前列腺癌的病理切片图像,旨在促进前列腺癌分级评估算法的研究。数据集中包含了大量经过专家标注的前列腺癌病理图像,涵盖了不同病理分级的病例。

image-20250313083528482

研究人员可以利用这些图像数据训练和验证机器学习模型,提高前列腺癌分级的准确性,从而为临床诊断和治疗决策提供更可靠的依据。


1-4:NADT-Prostate

Needle Biopsy and Radical Prostatectomy

NADT-Prostate 数据集包含了前列腺癌患者在穿刺活检和根治性前列腺切除术两个阶段的影像学数据。这些数据有助于研究前列腺癌在不同诊断和治疗阶段的影像学特征变化,为疾病的早期诊断、治疗效果评估以及预后预测提供重要参考。同时,该数据集也可以用于开发和验证影像分析算法,提高前列腺癌影像诊断的精度。


1-5:BCNB

(Breast Cancer Norman Barrett)

image-20250313083723532

BCNB 数据集主要涉及乳腺癌的病理图像和相关临床信息。该数据集的目的是推动乳腺癌病理图像分析技术的发展,包括肿瘤检测、分级以及生物标志物评估等方面。研究人员可以利用这些数据开发自动化的病理图像分析工具,提高乳腺癌诊断的效率和准确性,为临床医生提供更有力的支持。


1-6:CAMELYON16

image-20250313083800086

CAMELYON16 数据集专注于乳腺癌淋巴结转移的检测,包含了来自多个医疗中心的全切片病理图像。这些图像经过专业病理学家的标注,提供了肿瘤转移的准确位置信息

该数据集的建立旨在促进计算机辅助检测算法的研发,提高乳腺癌淋巴结转移诊断的准确性和一致性,减少漏诊和误诊的发生。


1-7:CAMELYON17

image-20250313083842558

CAMELYON17 是 CAMELYON16 的延续,进一步扩充了乳腺癌淋巴结转移检测的数据资源。与 CAMELYON16 相比,CAMELYON17 数据集在样本数量、患者来源以及图像质量等方面都有所提升。

它不仅包含了更多的病理切片图像,还涵盖了更广泛的临床场景,有助于研究人员开发更具泛化能力的检测算法,适应不同医疗机构和病理切片制备条件的差异。


1-8:BRACS*

(Breast Cancer Subtype Classification)

image-20250313083921151

BRACS 数据集专注于乳腺癌亚型分类,提供了大量经过专家标注的乳腺癌病理图像,涵盖了常见的乳腺癌亚型,如管状癌、髓样癌、黏液癌等。

该数据集的建立有助于研究人员深入研究乳腺癌不同亚型的病理特征,开发针对特定亚型的诊断和治疗方案。同时,BRACS 数据集也为计算机辅助诊断系统在乳腺癌亚型分类任务中的应用提供了宝贵的资源。


1-9: TIGER2021

(Tumor Identification and Grading Evaluation Resource)

image-20250313083958585

TIGER2021 数据集旨在为肿瘤识别和分级评估提供数据支持,包含了多种癌症类型的病理图像和临床信息。这些数据经过严格的标注和质量控制,能够帮助研究人员开发和验证高效的肿瘤识别与分级算法。

通过利用 TIGER2021 数据集,可以提高肿瘤诊断的准确性和效率,为临床治疗方案的制定提供更精准的依据。


1-10:MIDOG2022

(Molecular and Imaging Data for Ovarian Cancer)

image-20250313084019472

MIDOG2022 数据集整合了卵巢癌的分子数据和影像学数据,为卵巢癌的多模态分析提供了丰富的资源。该数据集包含了患者的基因组、转录组、蛋白质组等分子信息,以及对应的影像学检查结果。

研究人员可以利用这些多维度数据,探索卵巢癌的分子机制与影像学特征之间的关联,开发基于多模态数据的诊断和预后模型,提高卵巢癌的综合治疗水平。


1-11: AGGC2022

(Automated Glioma Grading Challenge)

image-20250313084056781


更多内容请前往公众号/知识星球获取!


结束语

本期推文的内容就到这里啦,如果需要获取医学AI领域的最新发展动态,请关注小罗的推送!如需进一步深入研究,获取相关资料,欢迎加入我的知识星球!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值