Nature近期的研究汇总多个病理切片数据集,综合运用多模态技术及自监督学习提出一种病理基础大模型。本文对其使用的方法进行介绍,并对其中使用的公开数据集进行汇总,希望能对各位读者有所帮助。
一、引言
病理图像评估是癌症及其亚型分类诊断的核心,通过分析组织切片中的细胞形态和分布,能够帮助医生识别肿瘤的类型和分期,从而制定相应的治疗方案。近年来研究者基于深度学习技术完成了肿瘤区域识别及癌症亚型分类等多种任务,提升了诊断的准确性和效率。然而,由于获取覆盖不同组织微环境异质性的综合病理表征非常困难,现有的研究主要集中于解决特定类型肿瘤的诊断任务。这不仅严重依赖于大量高质量标注数据,而且泛化性能往往较差。
自监督学习是一种利用未标注数据自动生成标签的学习方式。由于多样化的未标记训练数据相对容易收集,并且模型训练过程与特定任务无关,自监督学习在不同数据分布和病理图像评估任务上获得了较佳的效果。Nature的这篇研究面向病理图像评估问题,综合运用自监督学习和注意力机制等多种人工智能技术,开发了一个能够适应多种组织类型和评估任务的病理基础大模型。
二、数据及方法
该研究使用的数据来自于16个公开病理数据集以及6个医疗机构的非公开数据,涵盖了大脑、乳腺、膀胱以及肾脏等19个解剖部位。16个公开病理数据集的链接请看文末。
该研究提出的病理基础大模型主要包含面向无标记patch图像的无监督图像编码器模块、面向全切片图像的弱监督特征聚合模块以及补充解剖部位信息的文本编码器模块。
无监督图像编码器模块旨在为不同来源、参数设置、解剖位置的异质病理数据建立通用特征提取器。 CTransPath是一种基于Transformer的无监督对比学习方法,旨在提高组织病理图像分类的性能。它通过引入对比学习框架,利用Transformer架构的特征提取能力,从未标注的图像中学习有意义的特征表示。无监督图像编码器模块基于CTransPath在1500万张未标记切片图像进行训练,建立了一个用于图像编码的组织病理图像分支。
弱监督特征聚合模块通过切片级的标签,采用弱监督学习和注意力机制完成病理图像全局特征的理解。 基于无监督图像编码器模块提取的组织病理图像特征表示,辅以实例级特征识别和切片级对比学习,弱监督特征聚合模块通过基于注意力机制的特征融合来聚合这些特征,使病理基础大模型能够从全局特征构建对病理图像的整体理解。
补充解剖部位信息的文本编码器模块采用CLIP模型构建。该模型通过在多样化的图像-文本数据集上进行预训练,使其能够将视觉特征与对应的文本描述关联起来,从而识别不同器官之间的语义相关性。
三、总结
该研究提出的病理基础大模型有效地利用解剖部位信息作为先验知识,并考虑了病理切片图像中不同区域之间的上下文交互,这使其具备极强的特征提取能力及处理不同来源、参数设置病理切片图像的泛化能力。通过将该病理基础大模型能够作为一个通用的病理切片图像特征提取器,研究人员可以在样本量较小的情况下完成自身研究内容。 同时,该研究使用到的对比学习和注意力机制都非常具备创新性,值得我们学习参考。
四、数据链接
TCGA:https://portal.gdc.cancer.gov
GTEx:https://www.gtexportal.org/home/
PAIP (Pathology AI Platform):http://www.wisepaip.org/paip
PANDA:https://www.kaggle.com/c/prostate-cancer-grade-assessment
BCC:https://datahub.aida.scilifelab.se/10.23698/aida/bccc
ACROBAT:https://doi.org/10.48723/w728-p041
BCNB:https://bcnb.grand-challenge.org/
TOC:https://www.cancerimagingarchive.net/collection/ovarian-bevacizumab-response/
CPTAC:https://portal.gdc.cancer.gov
DROID-breast:https://datahub.aida.scilifelab.se/10.23698/aida/drbr
Cervix-TissueNet:https://www.drivendata.org/competitions/67/competition-cervical-biopsy/
Colon (Dataset-PT):https://github.com/CSU-BME/pathology_SSL
Prostate (Diagset-B):https://github.com/michalkoziarski/DiagSet
PAIP 2020:https://paip2020.grand-challenge.org/
MUV-GBM and MUV-LGG:https://doi.org/10.25493/WQ48-ZGX
PLCO:https://cdas.cancer.gov/plco/
五、最后分享
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
这里给大家精心整理了一份
全面的AI大模型学习资源
,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享
!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 2024行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
5. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以
微信扫描下方CSDN官方认证二维码
,免费领取【保证100%免费
】