今天的文章,全部来自哈佛大学Faisal Mahmood课题组的最新一批研究,我们跟随大佬的步伐,一起看看目前病理AI的发展趋势。
哈佛大学Faisal Mahmood课题组
第一篇文章
提出了一种名为 TANGLE 的转录组学引导的切片表示学习框架,通过多模态预训练利用基因表达数据指导学习全切片图像的切片嵌入,在少样本分类、原型分类和切片检索等多个下游任务中显著优于监督学习和自监督学习基线模型,展现了多模态预训练在计算病理学中的潜力。
第一篇文章与基因表达可解释性相关的研究内容
第二篇文章
介绍了 HEST-1k 数据集,它整合了空间转录组学、H&E 染色全切片图像和元数据,还引入了 HEST-Library 工具包,并通过多项研究展示了该数据集在病理学模型评估、生物标志物探索和多模态表示学习方面的应用及潜力。
第二篇文章的HEST-1k数据集可用于研究基因表达与细胞形态特征之间的关系
第三篇文章
提出 PANTHER 框架,基于高斯混合模型对病理全切片图像(WSI)进行无监督表示学习,通过将 WSI 补丁聚合为形态学原型构建切片嵌入,在多种下游任务中表现优异,且能从形态学原型分析中获得模型可解释性的新见解。
第三篇文章:将结直肠癌病理切片分解为不同形态原型
背景补充
- 结合组织学图像和基因表达数据的自监督学习(SSL)模型框架
- 与空间转录组学和组织学图像分析相关的多个概念和工具
- 基于PANTHER方法的全切片图像(WSI)分析流程
一、TANGLE 框架:转录组学辅助计算病理切片表示学习
文献原文已上传至知识星球
一作&通讯
作者身份 | 姓名 | 单位 |
---|---|---|
第一作者 | Guillaume Jaume、Lukas Oldenburg | 麻省总医院布莱根妇女医院、哈佛大学 |
通讯作者 | Faisal Mahmood | 麻省总医院布莱根妇女医院、哈佛大学 |
文献概述
文章提出了一种基于转录组学引导的切片表示学习框架TANGLE,利用基因表达数据辅助学习全切片图像(WSI)的切片嵌入,在多下游任务中表现优异,为计算病理学研究提供了新方向。
- 研究背景:自监督学习(SSL)在计算病理学中用于处理千兆像素的全切片图像时存在挑战,如构建切片“视图”计算成本高、学习视觉原语和不变性不明确、切片内异质性导致训练信号不一致等。受多模态视觉语言模型启发,研究团队利用基因表达数据指导切片表示学习。
- 相关工作:介绍自监督视觉表示学习的多种方法,以及SSL在计算病理学中编码组织学补丁和切片的研究现状,还提及监督学习中的多实例学习和多模态学习,以及计算毒理病理学的发展情况。
- 方法:TANGLE框架包含三个主要部分。切片编码器对大鼠和人类组织分别采用不同预训练模型提取补丁嵌入并聚合成切片嵌入;基因表达编码器将转录组测量值转换为表达嵌入;多模态对齐模块使用对称对比学习目标对齐切片和表达嵌入空间,同时引入互补目标增强模型性能。
- 实验与结果:使用TG - GATEs、TCGA和内部数据集,在少样本分类、原型分类和切片检索任务中评估TANGLE。结果表明,TANGLE在各任务中均优于监督学习和SSL基线模型,且通过分析模型可解释性发现其学习到的特征与生物学发现相符。
- 研究结论:TANGLE在多物种和组织部位的多个下游任务中表现出色,突出了(S + E)预训练的潜力。未来可探索更多多模态SSL目标,拓展(S + E)预训练在其他任务中的应用 。
结合组织学图像和基因表达数据的自监督学习(SSL)模型框架
- Patch embedding SSL(图像块嵌入自监督学习):组织学图像(Histology)X首先被分割成多个224×224像素(对应实际56μm)的图像块(Patch),经过标记化(tokenization)处理后输入视觉Transformer(Vision Transformer)。Transformer包含归一化(Norm)、多头注意力(Multi-head attention)和多层感知器(MLP)模块,最终输出图像块嵌入(Patch embedding)。
- Gene expression encoding(基因表达编码):对全转录组测序(Bulk whole-transcriptome sequencing)得到的数据,计算处理组(Treatment)与外部对照组(External control)基因表达的对数2倍变化(log₂ fold change),选取k(这里k = 1000)个变化最大的基因,进行基因子集(Gene subset)选择、基因层面的最小-最大归一化(Gene-wise minmax norm),再通过多层感知器(MLP)得到基因表达嵌入(Expression embedding)。
- Slide + Expression SSL(切片 + 表达自监督学习):将图像块嵌入聚合成切片嵌入(Slide embedding),与基因表达嵌入一起输入到自适应多实例学习(ABMIL)模块,通过对称对比学习损失()进行训练,实现两种模态数据的融合和自监督学习。
二、HEST-1k 数据集:助力空间转录组学与组织学图像分析
一作&通讯
作者身份 | 姓名 | 单位 |
---|---|---|
第一作者 | Guillaume Jaume | 布列根和妇女医院、哈佛医学院 |
第一作者 | Paul Doucet | 布列根和妇女医院、哈佛医学院、苏黎世联邦理工学院 |
通讯作者 | Guillaume Jaume | 布列根和妇女医院、哈佛医学院 |
通讯作者 | Faisal Mahmood | 布列根和妇女医院、哈佛医学院 |
文献概述
文章介绍了HEST-1k数据集,包括空间转录组学、H&E染色全切片图像和元数据,还引入了HEST-Library工具包,并利用该数据集开展了多项研究,为相关领域提供了有价值的资源和研究基础。
-
研究背景:空间转录组学虽发展迅速,但面临成本高、技术更新快、缺乏标准等问题,限制了深度学习模型的大规模发展。同时,组织形态学信息在空间转录组学研究中常被忽视,而整合两者信息具有重要意义。此外,病理学基础模型的发展需要新的基准测试。
-
相关工作
-
- ST分析库:现有的ST分析库如Scanpy和Seurat等,无法处理遗留数据的多样性问题。
- 从H&E预测分子谱:从组织学图像预测分子谱的研究在切片和补丁级别均有探索,但现有研究队列规模有限。
- 病理学基础模型:自监督学习在提取图像补丁通用嵌入方面应用广泛,但需要新的基准测试来评估模型性能。
- 组织病理学补丁级基准测试:早期的基准测试在一些任务上性能已饱和,HEST-Benchmark提供了更具挑战性的任务。
-
HEST-1k数据集:整合了公共和内部队列数据,包含1229个样本,涵盖26个器官、2个物种和25种癌症类型的367个癌症样本。统一了数据格式并提供全面元数据,进行组织学处理、核分割分类和基因表达分析,还重新对齐了数据。
-
HEST-Library:基于scanpy和ANNDATA构建,能实现数据格式转换、自动对齐、分辨率检测、数据下载、批次效应处理等功能,方便处理HEST-1k数据。
-
HEST-Benchmark:定义了9个任务,用于评估11个病理学基础模型预测基因表达的能力。结果表明,模型性能与模型大小对数相关,与训练补丁数量弱相关,且不同任务间性能差异较大。
-
生物标志物探索:以浸润性乳腺癌为例,通过分析组织形态与基因表达的相关性,发现核大小相关特征与基因表达的相关性较高,有助于识别精细的形态学与表达的关联。
-
多模态表示学习:对CONCH模型进行微调,在乳腺癌分子亚型预测任务中,微调后的CONCH-FT模型性能优于未微调模型,证明了多模态表示学习的潜力。
-
研究总结:HEST-1k数据集规模大且全面,支持生物标志物探索和多模态表示学习等研究。但存在数据噪声、批次效应和格式覆盖不全等问题。未来将持续更新数据集,进一步探索其在转化研究和生物标志物探索方面的潜力。
与空间转录组学和组织学图像分析相关的多个概念和工具
- HEST - 1K(图a):是一个数据集,包含来自不同器官(如脊髓、脑、乳腺等)的样本。样本类型有病理样本(癌症、健康、经治疗等),使用了不同技术(如Visium HD、STv1等),涉及人和小鼠两个物种。
- HEST - Library(图b):用于处理数据,包括处理缺失文件、自动对齐空间转录组(ST)点和全切片图像(WSI),还展示了组织处理过程,如组织分割、打补丁、细胞分割等,每个样本都有ST、H&E染色、细胞核、补丁和元数据等信息。
- HEST - Benchmark(图c):定义了9个任务,使用11种补丁编码器,涉及10个器官和9种癌症,用于评估模型,补丁大小为224像素/112微米。
- HEST for Biomarker Exploration(图d):展示了癌症样本中的细胞类型(如肿瘤细胞、非肿瘤细胞等),以及基因表达和形态特征之间的关系。
- HEST for Multimodal Learning(图e):阐述了多模态学习流程,通过补丁编码器和表达编码器分别处理组织图像和基因表达数据,然后对齐嵌入。
三、基于高斯混合模型的病理切片无监督学习框架 PANTHER
作者类型 | 姓名 | 单位 |
---|---|---|
第一作者 | Andrew H. Song、Richard J. Chen | 麻省总医院布莱根妇女医院、哈佛大学 |
通讯作者 | Faisal Mahmood | 麻省总医院布莱根妇女医院、哈佛大学 |
文献概述
文章提出了PANTHER(Prototype AggregatioN-based framework for compacT HEterogenous slide set Representation)方法,利用组织中的形态冗余构建无监督的全切片图像(WSI)表示,在多种任务上表现优异且具有可解释性。
- 研究背景:计算病理学中,WSI的表示学习至关重要,传统基于多实例学习(MIL)的弱监督方法生成的切片表示针对性强、泛化性受限。当前研究目标之一是转向无监督学习,以缓解数据和标签稀缺问题。
- 相关工作:MIL在临床预测任务广泛应用,不断有新的聚合策略提出;量化集合间距离的方法,如Wasserstein距离,在计算病理学中有应用;基于原型的集合表示已用于生物信息学和自然语言处理等领域,在计算病理学中也有相关研究,但现有方法存在局限性。
- 方法:将WSI划分为小的非重叠补丁,用预训练的特征提取器提取嵌入。基于高斯混合模型(GMM)假设每个补丁嵌入由GMM生成,通过期望最大化(EM)算法估计模型参数,构建切片嵌入。其聚合过程与最优传输相关。得到的切片嵌入可作为预测模块的输入用于下游任务,还可通过两种方法进行可解释性分析。
- 实验:在4种亚型分类任务和6种癌症类型的生存预测任务上评估PANTHER,使用多个数据集。对比多种无监督和有监督基线方法,实验中还对PANTHER进行了不同设置的变体实验。
- 结果:在亚型分类和生存预测任务上,PANTHER整体表现优于或与基线相当。在可解释性方面,GMM能有效映射组织微环境中组织学视觉概念的空间组织,原型模式反映了不同的形态表型。此外,PANTHER对不同的原型数量、生存损失函数和特征编码器选择具有鲁棒性。
- 结论与局限:PANTHER为无监督切片表示学习提供了新方法,但存在所有任务都使用(C = 16)个原型可能导致聚类不合理的问题。未来可引入更具表现力的混合模型、以数据驱动方式确定原型数量,并在小样本的罕见癌症队列上进行评估。
基于PANTHER方法的全切片图像(WSI)分析流程
流程从原始的全切片图像开始,先进行分块(Patching),得到256像素的图像块集合(WSI patch set),接着通过特征提取器(Feature Extractor)得到特征集(Feature set)。
之后进行基于原型的聚合(Prototype - based aggregation),利用高斯混合模型,将特征分配到不同的混合组(Mixture)中,确定原型(Prototypes),这些原型初始化为聚类中心。经过聚合后得到切片嵌入(Slide embedding),其包含混合概率、均值和协方差等信息。
最后,切片嵌入输入到预测器(Predictor),可用于生存预测(Survival prediction)和亚型分类(Subtyping)等特定任务,还能生成原型分配图(Prototypical assignment map) 。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。