利用大量未标注数据进行自监督学习的病理学基础模型(Foundation Model)在显著减少对特定任务标注数据需求的同时,展现出强大的泛化能力。这不仅解决了基于人工智能技术研发病理学模型过程中数据标注昂贵且耗时的瓶颈问题,还通过其突出的特征表示能力,使其能够适应多种应用场景,特别是在标注数据稀缺但未标注数据丰富的生物医学领域。
本文将对微软研究院联合Providence研发病理学基础模型——Prov-GigaPath进行介绍,Prov-GigaPath的模型和代码已开源,在其基础上开展下游应用的研究,有望极大地降低对训练数据的需求并显著提升模型预测效果。
引言
近年来,数字病理学的迅猛发展成为精准医学突破的重要组成部分。在癌症护理中,全切片成像技术将肿瘤组织样本转化为高分辨率的数字图像,已成为常规技术。这些高达十亿像素级的病理图像包含丰富的肿瘤微环境信息,为癌症分类诊断、生存率分析和精准免疫治疗提供了前所未有的机会。然而,处理和理解这些大规模、高像素、特征复杂的图像在计算上具有巨大的挑战性。全切片数字图像的面积是自然图像的数万倍,传统的计算机视觉模型如Vision Transformer,其计算复杂度随着输入图像大小的增加迅速上升。此外,临床医学数据具备跨尺度、多模态且高噪声的特点,现有病理学模型多基于标准公开数据集,不足以支撑现实应用。
针对这些挑战,来自微软研究院、美国Providence机构和华盛顿大学的研究人员共同提出了首个全切片尺度的数字病理学模型——Prov-GigaPath。该模型采用两阶段的级联结构的同时结合了微软研究院近期开发的LongNet架构,有效解决了处理和理解十亿像素级别图像的问题。研究人员在Providence旗下28家美国医院的3万名病人的真实数据上进行了大规模预训练,该数据集共涵盖17万张全切片数字病理学图像,13亿张病理图块。
实验结果表明,Prov-GigaPath在26个任务中表现出色,包括9个癌症分类任务和17项病理组学任务。Prov-GigaPath在其中25项任务中取得领先效果,并在18项任务中显著优于现有方法。该研究展示了全切片尺度建模和大规模真实数据预训练的重要性,同时表明Prov-GigaPath在推动癌症护理和临床发现方面具有巨大潜力。
Prov-GigaPath
Prov-GigaPath将病理切片中划分为图像块(image tile)作为输入,并输出可用于多种临床应用的切片级嵌入(slide-level embeddings)。通过提取不同的局部病理结构并整合整个切片的全局特征,Prov-GigaPath在处理千兆像素病理切片的长上下文建模方面表现出色。Prov-GigaPath包括一个用于捕捉局部特征的图像块编码器和一个用于捕捉全局特征的切片编码器。图像块编码器将所有图像块分别投影为紧凑的嵌入。切片编码器则输入图像块嵌入序列,并使用Transformser生成考虑整个序列的上下文嵌入。图像块编码器使用最先进的图像自监督学习框架DINOv2进行预训练。切片编码器结合了带有LongNet的掩码自动编码器预训练。在下游任务中,切片编码器的输出通过简单的softmax注意力层进行聚合。
Prov-GigaPath结构图
Prov-GigaPath采用了两阶段的课程学习,包含使用DINOv2进行图像块级预训练和使用带有LongNet的掩码自动编码器进行切片级预训练。DINOv2是一种标准的自监督方法,在训练教师和学生视觉Transformer时结合了对比损失和掩码重建损失。然而,由于自注意力的计算挑战,其应用仅限于如256×256像素大小的小图像。
对于全切片级建模,研究团队从LongNet中引入了扩张注意力(Dilated Attention)。同时,为了处理整张全切片的长图像块序列,Prov-GigaPath还引入了一系列递增的尺寸,用于将图像块序列细分为给定尺寸的片段。对于较大的片段,Prov-GigaPath引入稀疏注意力,稀疏度与片段长度成正比,从而抵消二次增长。虽然最大的片段将覆盖整个全切片,但自注意力的稀疏抽样使Prov-GigaPath不仅能够以系统的方式捕捉远程依赖关系,而且保持计算的可行性。
Dilated Attention示意图
Prov-GigaPath是一种通用的高分辨率成像数据预训练方法,可扩展到其他生物医学问题,包括大型二维和三维图像及视频的分析。Prov-GigaPath使用了大量和多样化的数据上进行了预训练。**对于下游任务,预训练后的Prov-GigaPath仅需要使用特定任务的训练数据进行微调即可得到面向特定任务模型。**与之前效果最好的公共病理学基础模型相比,Prov-GigaPath在17项病理组学任务和9项亚型分类任务中取得了显著改进。
主要实验结果
癌症分型诊断任务的主要任务目标是根据病理切片对细粒度亚型进行分类。例如,区分卵巢癌的六种亚型:透明细胞卵巢癌、子宫内膜样卵巢癌、高级别浆液性卵巢癌、低级别浆液性卵巢癌、粘液性卵巢癌和卵巢癌肉瘤。Prov-GigaPath在所有九项癌症分型任务中均获得领先效果,并在其中六项癌症类别分型中准确率显著提升。对于六种癌症类型(乳腺癌、肾癌、肝癌、脑癌、卵巢癌和中枢神经系统癌),Prov-GigaPath的AUROC达到90%或更高。这些成果表明,Prov-GigaPath对于癌症诊断和预后等精准健康领域的下游应用具有巨大的潜力和良好的前景。
病理组学任务的任务目标主要是仅根据全切片图像预测肿瘤是否表现出特定的临床相关基因突变**。**这一任务有助于揭示组织形态与遗传途径之间难以被人类察觉的联系。除了一些已知的特定癌症类型和基因突变对之外,全切片图像中存在多少基因突变信号仍然是一个尚无答案的问题。在一些实验中,研究人员考虑了泛癌场景,即在所有癌症类型和多样化的肿瘤形态中识别基因突变的通用信号。Prov-GigaPath在18项任务中的17项中达到了领先性能,并在12项任务中显著优于第二名。Prov-GigaPath能够在全切片水平上提取遗传相关的泛癌和亚型特异性形态特征,为真实场景下的复杂研究方向开辟了新的途径,展示了其在病理组学领域的强大应用潜力。
此外,研究者通过引入病理报告进一步证明了Prov-GigaPath在多模态视觉语言任务上的潜力。此前,关于病理视觉-语言预训练的工作往往集中在图块级别的小图像上。Prov-GigaPath则对全切片级别的视觉-语言预训练基础模型开展了探索。通过结合病理学报告对进行预训练,即利用病理报告实现病理学切片的对齐表示,使得在Prov-GigaPath不进行监督微调的情况下即可用于下游预测任务(例如零样本癌症分型)。具体而言,研究者使用Prov-GigaPath 作为全切片图像编码器,并使用PubMedBERT作为文本编码器,通过病理切片-报告对进行对比学习。
视觉-语言对齐示意图
由于没有单个图像图块和文本片段之间的精细对齐信息,使得这种任务更具挑战。在这种背景下,Prov-GigaPath在标准视觉-语言任务中显著优于三种最先进的病理学视觉-语言模型,例如零样本癌症分型和基因突变预测。这展示了 Prov-GigaPath在全切片病理数据下视觉-语言模型中的巨大潜力,并进一步拓宽了其在真实中的应用前景。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。