文章摘要
癌症的诊断和管理依赖于病理学家从显微镜图像中提取复杂信息,这需要耗时的专家解读,并且容易受到人为偏见的影响。监督深度学习方法已经证明了其强大能力,但其固有的局限在于训练所需的标注成本和质量。因此,作者提出了组织形态表型学习,这是一种不需要标签的自监督方法,通过自动发现图像切片中的区分性特征来操作。切片被分组为形态相似的簇,构成了组织形态表型图谱 (HP-Atlas),揭示了从良性到恶性组织通过炎症性和反应性表型的轨迹。这些簇具有独特的特征,可以通过正交方法识别,连接组织学、分子和临床表型。在应用于肺癌时,作者发现这些特征与患者生存率、组织病理学上认可的肿瘤类型和生长模式,以及免疫表型的转录组测量密切相关。这些特性在多癌症研究中得以保持。
数据集地址:
https://github.com/AdalbertoCq/Histomorphological-Phenotype-Learning
代码地址:
https://github.com/AdalbertoCq/Histomorphological-Phenotype-Learning
前世今生
苏木精和伊红(H&E)染色的组织切片是癌症诊断和许多治疗决策的基石。它们的普遍存在使其成为研究肿瘤高度异质性表型的最大数据来源,从亚细胞分辨率到组织结构及肿瘤微环境中的复杂互动都可以提供信息。然而,病理学家的解读耗时且易受观察者间差异的影响,取决于其专业知识、知识水平以及表征某些肿瘤或模式的内在难度。监督深度学习方法已证明在肿瘤分类任务中与专家不相上下。此外,这些方法还被用于解决更具挑战性的问题,如预测基因突变、生存率和免疫治疗反应。虽然这些方法可以产生准确的模型,但获得严格的临床标注很困难。然而,标注对于正确训练监督模型或进一步研究某些组织形态学的意义是至关重要的。例如,在Johannet等人的研究中,通过选择富含淋巴细胞或结缔组织区域的肿瘤区域来预测免疫治疗反应。此外,通过限制研究于标注的特征,这些方法也限制了新生物标志物的潜在发现。最后,这些方法通常被描述为黑箱,难以解释和理解网络如何做出决策,可能影响信任,限制了做出充分知情的治疗决策的能力。
半监督和弱监督方法已经出现,以缓解这一瓶颈。它们可以从少量标记数据中学习,并在各种应用中显示出益处,包括组织病理学。这些方法包括基于支持向量机的乳腺癌组织分类的聚类方法,以及在大肠癌数据集上的教师-学生架构。多实例学习(MIL)自然适合于WSI标签预测任务。特别值得关注的是注意力-深度MIL模型,该模型通过为WSI切片提供注意力得分,为MIL深度学习模型引入了解释性,并已广泛应用和改编于组织病理学。然而,MIL仅提供哪些单个切片对给定任务重要的信息,而不提供切片更广泛的临床和生物学意义的信息。
与这些方法进展并行的是,组织病理学领域对无监督和自监督方法的兴趣不断增加;与监督方法不同,这些模型无需标签,仅从图像中包含的信息创建组织图像的表示。最近,这一研究方向已被应用于一系列不同的任务,表明肿瘤区域不一定是肿瘤突变的最佳预测指标,变分自编码器(VAEs)可以从H&E染色图像中解开单细胞的形态成分,或自监督模型可以成功用于细胞核分割。
在此,作者提出了一种通过自监督学习和社区检测提取组织形态表型表示的无偏方法。除了自我发现组织形态表型外,作者的方法还提供了一种机制,将组织形态表型簇(HPCs)与临床和分子标注联系起来,无需像监督和弱监督端到端解决方案那样重新训练模型。此外,作者的方法具有可解释性,允许病理学家审查组织模式及其与癌症类型、总体生存率、无复发生存率或分子表型等标注的关系,从而提供表型到分子到临床的关联。为了说明作者的框架,首先将其应用于肺腺癌(LUAD)全切片图像的分析,这是一种具有多种亚型和异质性特征的癌症,肿瘤形态高度预测患者的预后。首先展示了自监督管道获得的簇如何有效地分类构成该肿瘤类型的高度多样化的形态,从而生成组织形态表型图谱(HP-Atlas)。然后,展示了它们的临床相关性,说明它们如何用于预测总体和无复发生存率,以及作者的方法识别富含已识别细胞类型、生长模式和基于组学的免疫特征的肿瘤区域的能力。随后将研究扩展到多癌症分析,展示了富含特定分子特征的组织形态模式如何用于区分癌症亚型,如肺腺癌与鳞状细胞癌,或用于识别在多癌症分析中预测总体生存率的通用癌症表型。
匠心独运与卓越性能
图1 | 组织形态表型学习(HPL)框架架构概述A. 全切片图像(WSI)经过处理,用于切片提取和染色标准化。B. 使用自监督训练的骨干网络fθ创建切片向量表示。C. 通过冻结的骨干网络fθ将切片投射到z向量表示中。接下来,使用Leiden社区检测在z切片向量表示的最近邻图上定义组织形态表型簇(HPCs)。D. 全切片图像或患者(每位患者一个或多个全切片图像)通过一个维度等于HPC数量的组合向量来定义,并考虑HPC占总组织面积的百分比。HPL创建了全切片图像和患者组合向量表示,这些表示可以轻松用于可解释的模型,如逻辑回归或Cox回归,将组织表型与临床注释相关联。源数据提供在源数据文件中。
图2 | 肺腺癌的HPCs在组织形态表型上表现出一致的富集。A. 肺腺癌切片向量表示的统一流形近似与投影(UMAP)降维,按HPC归属标记(每个HPC分配不同颜色以便于可视化)。B. 来自TCGA队列中与每个HPC相关的患者百分比(100%对应452名患者)。绿色阴影与百分比(y轴)成比例。C. 与每个HPC相关的机构百分比(100%对应33个机构)。绿色阴影与百分比(y轴)成比例。D. 每个HPC的共识注释,经过3位专家病理学家小组对每个HPC的100个随机切片进行目视检查后得出。详细共识的星级表示病理学家对主要组织成分(一种给定的生长模式/非肿瘤元素,详见方法-簇组织学评估)达成一致的数量,而患者和机构质量控制(QC)的星级与面板B和C有关,百分比高于50%、高于或低于25%分别对应3星、2星和1星。然后将标签投射回E-G面板的UMAP中。E. 在UMAP上显示不同组织类别的分布,F. 上皮:间质比例,G. 淋巴细胞浸润程度的可视化表示。源数据提供在源数据文件中。
图3 | 富集非肿瘤表型的HPCs共识描述及其代表切片。A. 富集有正常和反应性实质的HPCs。B. 富集有间质和其他专门组织的HPCs。作者为每个非肿瘤表型A和B的HPCs突出显示切片向量表示。感兴趣的HPCs的颜色与图2A中的一致,而其他HPCs保持灰色。共识是在3位病理学家对HPCs进行独立注释后获得的,具体描述见方法部分的簇组织学评估。每个HPC的更多切片示例见补充图3-4。源数据提供在源数据文件中。
图4 | 富集肿瘤表型的HPCs共识描述及其代表切片。A. 富集有经典腺癌外观的HPC。B. 富集有变异腺癌外观的HPC。感兴趣的HPCs的颜色与图2A中的一致,而其他HPCs保持灰色。共识是在3位病理学家对HPCs进行独立注释后获得的,具体描述见方法部分的簇组织学评估。每个HPC的更多切片示例见补充图3-4。源数据提供在源数据文件中。
图5 | 肺腺癌全切片图像的HPC叠加显示。展示了来自三位具有代表性的TCGA患者的肿瘤。A对应患者TCGA-80-5608,该患者在7年随访时被审查;B对应患者TCGA-38-4625,该患者在8年随访时被审查;C对应患者TCGA-50-5931,该患者在手术后14个月去世。对于每位患者,展示了原始切片图像(包括背景最多占60%的切片),以及相同的切片但叠加了表示HPC的颜色编码和一个图例,图例中显示了分配给某个HPC的切片百分比;展示了每位患者最常见的10个HPC。源数据提供在源数据文件中。
图6 | 肺腺癌(LUAD)无复发生存分析通过HPL进行。A. 高风险组和低风险组显示出统计显著性(使用Logrank检验p值为7.26×10−6<0.05)。在5折交叉验证中的每一折,通过取训练集的中位风险值来定义高风险和低风险组阈值,并基于该值将测试集划分为高风险和低风险。由于测试集在5折交叉验证中是非重叠的,在交叉验证结束时,所有样本都根据每折测试集被标记为高风险或低风险。生存图上的误差条表示95%置信区间。B. 患者向量表示的统一流形近似与投影(UMAP)降维,针对NYU队列的每个表示,根据复发风险组进行标记,低风险(蓝色)和高风险(橙色)。C. SHAP(Shapley加法解释)图。D. 与高复发风险相关的最重要HPCs。E. 与低复发风险相关的最重要HPCs。F. 对于被分类为高复发风险的患者切片的决策图示例。关注至少包含总患者数10%的HPCs,以发现可以在队列中普遍存在的组织模式。源数据提供在源数据文件中。
图7 | 肺腺癌(LUAD)生存分析和组织形态表型簇(HPC)相关性。A. HPCs和免疫特征签名的双层次聚类,显示从红色(正相关)到蓝色(负相关)的相关性。整体生存和无复发生存的Cox系数颜色从紫色(有利于死亡或复发)到绿色(有利于生存或无复发)。HPCs根据淋巴细胞浸润的组织学评估着色:深红色:重度浸润富集;浅红色:中度浸润;浅蓝色:轻度浸润;深蓝色:非常稀疏的浸润;灰色:其他HPCs。B. HPCs和细胞类型过表达(红色)和欠表达(蓝色)的双层次聚类。C. HPCs和LUAD组织学亚型富集(红色)或贫化(蓝色)的双层次聚类。对于所有面板,所有子图中的列树图都对应于HPCs和免疫签名的双层次聚类,以便更容易地将这些分析联系在同一背景下。与Cox回归分析相关的良好和不良结果的HPCs及相关危险比率(顶部行)来自于补充图6和图6中显示的Cox回归分析(详见方法-簇特征描述)。与更好生存结果相关的HPCs显示与严重到中度淋巴细胞浸润和RNASeq标志物的肿瘤浸润白细胞(TIL)、淋巴细胞浸润标志得分、T细胞受体(TCR)和巨噬细胞调节正相关;并显示炎症、死亡和新生物细胞的过表达。与更差生存结果相关的HPCs主要包含轻度淋巴细胞浸润内容,并显示与增殖、突变率、同源重组缺陷和愈合标志物的正相关,炎症和死亡细胞的欠表达,以及固体组织学模式的富集。D. 每位患者的HPC 1贡献与基于组学的免疫特征签名(肿瘤浸润白细胞(TIL)和白细胞分数)的散点图,显示来自TCGA和NYU1队列的代表性HPC 1切片。E. 每位患者的HPC 15贡献与基于组学的免疫特征签名(增殖和Th2细胞)的散点图,显示来自TCGA和NYU1队列的代表性HPC 15切片。D和E面板使用双侧Spearman相关性。F. 224×224组织切片的统一流形近似与投影降维,每个切片标签对应于簇细胞类型的富集。源数据提供在源数据文件中
图8 | 多癌种HPL流程及生成的主要富集HPCs。A. 多癌种流程:选择了10种癌症类型,样本量从232到1011位患者不等(左),这些数据输入HPL流程(中),生成了34个HPCs(右)。B. 通过Spearman相关性识别出与特定HPCs高度相关的4个转录组免疫特征的示例,以及在UMAP上显示这些特征的切片,其中高度富集(红色)和贫化(蓝色)的HPCs。C. TIL(肿瘤浸润白细胞)区域分数D. 增殖E. TGF-beta反应F. 巨噬细胞调节G. 愈合H. 间质分数。源数据提供在源数据文件中。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。