小罗碎碎念
近五年图神经网络在病理组学中的应用
剔除掉部分低分文献,近五年共筛选出196篇与图神经网络相关的文献,我们可以看到,在2024年该领域的研究呈现了一个翻倍增长趋势,预计后续还会持续增长!
为了让大家快速的了解一下图神经网络在病理组学中的应用,本期推送挑选2024年发表的三篇文章,和大家分享。
推文速览
第一篇文章介绍了一种新型时空图卷积网络框架STGC-GCAM,用于从大规模多站点fMRI数据集中识别阿尔茨海默病的功能连接生物标志物。
第二篇文章介绍了一个深度学习系统,能够通过分析组织学图像来预测肿瘤微环境并提高癌症预后的准确性。
第三篇文章介绍了一种新型的多尺度关系图卷积网络(MS-RGCN),用于提高病理组织图像中多重实例学习的效率和准确性。
概念补充
【1】基于fMRI数据的深度学习建模流程
【2】如何从病理图像中预测空间基因表达模式?
【3】多尺度关系图卷积网络在病理组学中的应用流程
一、时空图卷积网络在阿尔茨海默病生物标志物识别中的应用
一作&通讯
姓名 | 角色 | 单位名称(中文) |
---|---|---|
Ying Zhang | 第一作者 | 上海大学信息与通信工程学院 |
Mingkai Zhang | 通讯作者 | 首都医科大学宣武医院神经内科 |
Jiehui Jiang | 通讯作者 | 上海大学生物医学工程学院 |
Yunxia Li | 通讯作者 | 复旦大学附属浦东医院神经内科 |
文献概述
这篇文章是关于一种新型的用于识别阿尔茨海默病(Alzheimer’s disease, AD)功能连接(Functional Connectivity, FC)生物标志物的时空图卷积网络(Spatiotemporal Graph Convolutional Network, ST-GCN)框架的研究。
这个框架结合了基于梯度的类激活映射(Gradient-based Class Activation Mapping, Grad-CAM)模型,被称为STGC-GCAM。
- 背景:阿尔茨海默病的早期诊断和机理研究中,功能连接生物标志物扮演着重要角色。然而,有效FC生物标志物的识别仍然是一个挑战。
- 方法:这项多中心、跨种族的回顾性研究涉及2272名参与者,包括认知正常(Cognitively Normal, CN)个体、轻度认知障碍(Mild Cognitive Impairment, MCI)个体和AD患者。所有参与者都接受了功能性磁共振成像(fMRI)和T1加权MRI扫描。
- STGC-GCAM模型:首先优化模型以提高分类准确性,然后使用优化后的模型识别与AD相关的新生物标志物,并通过Kaplan-Meier分析验证成像生物标志物,最后进行相关性和因果中介分析以确认识别的生物标志物的生理意义。
- 结果:STGC-GCAM模型展现出极佳的分类性能,平均AUC值在不同类别间为:CN vs MCI = 0.98,CN vs AD = 0.95,MCI vs AD = 0.96,稳定MCI vs 进展MCI = 0.79。模型识别出特定的大脑区域,包括感觉运动网络(Sensorimotor Network, SMN)、视觉网络(Visual Network, VN)和默认模式网络(Default Mode Network, DMN),作为患者和CN个体之间的关键区分因素。这些大脑区域与认知障碍的严重程度显著相关(p < 0.05)。
- 结论:这项研究提出了STGC-GCAM框架,该框架使用大型多站点fMRI数据集识别FC生物标志物。研究还强调了深度学习方法在提供客观和稳定的生物标志物方面的潜力,这些生物标志物可以帮助早期发现AD。
整体而言,这篇文章介绍了一种新的方法来识别阿尔茨海默病的生物标志物,并通过大规模的多中心研究验证了其有效性。
基于fMRI数据的深度学习建模流程
下图综合展示了研究的工作流程。
以下是各部分的详细分析:
(a) 多中心样本收集:研究从三个中心收集数据,包括ADNI数据库、宣武医院和同济医院。每个中心提供了不同数量的样本,用于构建研究的参与者群体。
(b) fMRI图像预处理流程:这一步骤包括对原始fMRI数据进行去噪、时间校正、运动校正、共配准、滤波和平滑处理,以准备后续的图构建和模型训练。
© 基于fMRI的图表示构建:使用Anatomical Automatic Labeling (AAL)图谱定义脑区节点,并通过计算不同节点间BOLD信号的皮尔逊相关系数来构建邻接矩阵,从而形成脑网络的图表示。
(d) STGC-GCAM模型架构:模型由两个主要模块组成,STGC模块负责提取时空特征,而GCAM模块则用于图像标记提取。STGC模块通过多层图卷积来处理节点特征和邻接矩阵,GCAM模块则通过线性池化和全局平均来进一步处理特征。
(e) 成像生物标志物的可视化:使用BrainNet Viewer工具来可视化通过模型识别的成像生物标志物,这有助于理解模型识别的脑区在疾病中的作用。
(f) 相关性分析:分析疾病相关脑区的拓扑特征与临床指标之间的相关性,以评估这些特征作为生物标志物的潜力。
(g) MCI患者的生存分析:使用成像标记对MCI患者进行生存分析,以预测从MCI到AD的转化风险。
(h) 中介效应研究:研究脑区拓扑特征如何中介Aβ、tau蛋白和神经变异对认知障碍的影响,这有助于理解这些生物标志物在疾病发展中的作用机制。
整个工作流程从数据收集开始,经过图像预处理、图构建、模型训练和评估,最终通过可视化和统计分析来识别和验证AD的成像生物标志物。这个过程不仅展示了STGC-GCAM模型的应用,还揭示了其在早期诊断和疾病机理研究中的潜在价值。
二、肿瘤微环境解码:深度学习在癌症预后中的应用
一作&通讯
角色 | 姓名 | 单位名称(中文) |
---|---|---|
第一作者 | Ruitian Gao | 上海交通大学生命科学与生物技术学院生物信息与生物统计系 |
通讯作者 | Jing Sun | 上海交通大学医学院附属瑞金医院普外科、上海交通大学生物统计与数据科学联合中心 |
通讯作者 | Yu Guang Wang | 上海交通大学数学科学学院、上海交通大学生物统计与数据科学联合中心 |
通讯作者 | Zhangsheng Yu | 上海交通大学生命科学与生物技术学院生物信息与生物统计系、上海交通大学生物统计与数据科学联合中心 |
文献概述
这篇文章介绍了一个基于深度学习的系统,该系统能够通过分析组织学图像来预测肿瘤微环境(TME),并提高癌症预后的准确性。
-
研究背景:肿瘤微环境(TME)与癌症预后密切相关,但空间转录组学(ST)技术在临床上的应用受限。研究者提出了一个深度学习系统,可以在没有ST数据的情况下,通过组织学图像增强TME信息,从而精确预测癌症预后。
-
IGI-DL模型:文章提出了一个集成图和图像深度学习(IGI-DL)模型,该模型能够基于组织学图像预测ST表达,与五种现有方法相比,平均相关性提高了0.171。
-
癌症预后预测模型:基于空间基因表达描绘的TME,研究者构建了一个癌症预后预测模型。该模型在乳腺癌和结直肠癌队列中显示出优越的准确性。
-
研究结果:IGI-DL模型在三种实体瘤(结直肠癌、乳腺癌和皮肤鳞状细胞癌)的组织样本中预测基因表达的性能优于其他模型。此外,该模型还显示出良好的跨平台和跨癌症类型的泛化能力。
-
研究方法:研究者详细描述了从组织学图像预处理、核分割和特征提取、核特征选择、核图构建、目标基因选择、基因表达数据预处理,到IGI-DL模型和比较模型的架构、训练策略,以及如何构建基于预测的空间基因表达的超补丁图(super-patch graph)进行预后预测。
-
研究限制:尽管IGI-DL模型在多个实体瘤类型中表现出优越和稳定的性能,但研究者指出,模型的训练数据集在患者层面的样本量有限,可能无法充分代表癌症生物学和人群的异质性。
-
结论:该深度学习系统能够通过组织学图像预测ST信息,描绘TME,并在大规模回顾性队列中进行生存预测,而无需ST数据。
文章还提供了数据和代码的可用性信息,以及实验模型和受试者细节、方法细节、定量和统计分析方法。
代码链接和数据集
-
代码链接:
- A deep learning system for TME analysis and cancer prognosis: 这是文章中提到的深度学习模型,用于肿瘤微环境(TME)分析和癌症预后。该系统能够通过组织学图像预测空间转录组学(ST)信息,从而对癌症患者进行生存预测。
-
数据集:
- CRC leave-one-patient-out validation set sequenced by 10x Visium: 该数据集包含10位结直肠癌患者的空间转录组数据,用于模型的留一法验证集。
- CRC external test set sequenced by 10x Visium: 该数据集包含2位结直肠癌患者的空间转录组数据,用于模型的外部测试集。
- Breast cancer leave-one-patient-out validation set sequenced by legacy ST technology: 该数据集包含27位乳腺癌患者的空间转录组数据,用于模型的留一法验证集。
- Breast cancer external test set sequenced by legacy ST technology: 该数据集包含1位乳腺癌患者的空间转录组数据,用于模型的外部测试集。
- cSCC leave-one-patient-out validation set sequenced by legacy ST technology: 该数据集包含4位皮肤鳞状细胞癌患者的空间转录组数据,用于模型的留一法验证集。
- cSCC external test set sequenced by 10x Visium: 该数据集包含1位皮肤鳞状细胞癌患者的空间转录组数据,用于模型的外部测试集。
- NCT-CRC-HE: 该数据集用于潜在空间的可视化,包含结直肠癌HE染色切片的补丁级标签。
- TCGA colorectal cancer and breast cancer cohorts: 该数据集包含结直肠癌和乳腺癌患者的HE染色全切片图像和相应的临床数据,用于5折交叉验证的生存预测。
- MCO-CRC: 该数据集包含结直肠癌患者的HE染色全切片图像和相应的临床数据,用作外部测试集进行生存预测。
从病理图像中预测空间基因表达模式
图1展示了一个深度学习(DL)系统的流程图,该系统用于从癌症患者的组织学图像中预测空间基因表达模式并进行准确的生存预后。
下面是对每个部分的详细解释:
(A) 两个连接:
- 这部分展示了DL系统中建立的两个主要连接。第一个连接(Connection 1)是从组织学图像到空间基因表达的预测。第二个连接(Connection 2)是利用预测的空间基因表达信息来预测癌症预后。
(B) 数据预处理工作流程:
- 从原始的肿瘤组织样本开始,通过空间转录组学(ST)技术获取数据。
- 将H&E染色的组织学图像进行切片提取、颜色标准化、图像分割等预处理步骤。
- 通过核分割和边缘检测,构建Nuclei-Graphs,这是图1中用于表示细胞核之间空间关系的图结构。
© 集成图和图像深度学习(IGI-DL)模型的架构:
- 图形分支(Graph Branch):使用构建的Nuclei-Graph,通过图同构网络(GIN)进行特征提取,然后通过最大值和平均值全局池化(Max & Mean Global Pooling)来整合图级别的信息。
- 图像分支(Image Branch):使用ResNet18模型处理图像分支,提取图像的纹理特征,并通过平均池化(Average Pooling)来整合特征。
- 两个分支的输出通过多层感知机(MLP)进行融合,并通过均方误差(MSE)损失函数进行训练,以预测目标基因的高维表达。
(D) 基于预测空间基因表达的超补丁图生存模型的架构:
- 使用IGI-DL模型预测的基因空间表达作为特征,构建超补丁图(Super-patch Graph),这是一种考虑了图像整体空间结构的图结构。
- 通过图注意力网络(GAT)提取超补丁图中的特征,并与临床数据结合。
- 使用基于图的Cox比例风险模型(Graph-based Cox Proportional Hazards (CPH) Model)来预测患者的生存风险。
整个流程展示了如何从原始的组织学图像数据出发,通过深度学习模型预测基因表达,并进一步用于癌症预后的生存分析。
三、多尺度关系图卷积网络在病理图像分析中的应用
一作&通讯
角色 | 姓名 | 单位名称(中文) |
---|---|---|
第一作者 | Roozbeh Bazargani | 不列颠哥伦比亚大学电气与计算机工程系 |
通讯作者 | Ali Bashashati | 不列颠哥伦比亚大学生物医学工程系 |
通讯作者 | Septimiu Salcudean | 不列颠哥伦比亚大学电气与计算机工程系 |
文献概述
这篇文章是关于一种新型的多尺度关系图卷积网络(Multi-Scale Relational Graph Convolutional Network,简称MS-RGCN)的研究,该网络用于在病理组织图像中进行多重实例学习(Multiple Instance Learning,简称MIL)。这项研究的主要贡献包括:
-
创新方法:提出了MS-RGCN,这是一种基于图的深度学习方法,用于处理不同放大倍数下的病理组织图像,并在不同尺度之间传递信息。
-
多尺度信息利用:通过在每个放大倍数下建模组织图像块及其与邻近块和不同尺度块的关系,作为图的一部分,MS-RGCN能够利用多尺度信息来改善图卷积网络中的消息传递。
-
消息传递神经网络:定义了基于节点和边类型的不同消息传递神经网络,以在不同放大倍数的嵌入空间之间传递信息。
-
前列腺癌病理图像实验:在前列腺癌病理图像上进行了实验,以预测基于图像块提取特征的等级组,并与多种最先进的方法进行了比较。
-
性能比较:MS-RGCN在所有数据集和图像类型上的表现均优于现有技术,包括组织微阵列、全切片区域和全切片图像。
-
消融研究:通过消融研究测试并展示了MS-RGCN设计特点的价值。
-
解释性分析:通过比较自注意力热图与病理学家的掩码,对模型的可解释性进行了定性分析。
文章还讨论了MS-RGCN在处理病理图像分析中的挑战,包括图像大小、不同放大倍数下的特征捕捉、数据标注的复杂性以及模型在不同数据集间的泛化能力。此外,文章还提供了数据集和代码的链接,以及对研究方法和实验结果的详细描述。
代码链接和数据集
-
代码链接:
- https://github.com/AIMLab-UBC/MS-RGCN:这是文章中提到的MS-RGCN(Multi-Scale Relational Graph Convolutional Network)的代码库,用于实现和复现文章中描述的多尺度关系图卷积网络。
-
数据集链接:
- https://tinyurl.com/VPC-dataset:这是文章中提到的Vancouver前列腺中心的数据集,用于前列腺癌组织病理图像的分析。
- https://tinyurl.com/Zurich-dataset:这是文章中提到的Zurich数据集,同样用于前列腺癌组织病理图像的分析。
- https://tinyurl.com/PANDA-dataset:这是文章中提到的PANDA挑战数据集,包含了Karolinska和Radboud的数据集,用于前列腺癌的组织病理图像分析。
多尺度关系图卷积网络在病理组学中的应用流程
下图展示了MS-RGCN(多尺度关系图卷积网络)模型的概述。
以下是对该模型的详细分析:
-
图像块提取:
- 从组织病理图像中以5×、10×和20×的放大倍数提取图像块(patches)。
- 高分辨率的图像块位于较低分辨率图像块的中心,这样可以确保在不同放大倍数下,相同区域的图像块能够对应起来。
-
数据增强:
- 使用H&E(苏木精-伊红)染色颜色增强和普通颜色增强的组合,以提高模型在未见数据集上的性能和泛化能力。
-
特征提取器:
- 特征提取器被训练来预测图像块级别的注释,从而提取特征。
- 这些特征提取器可能使用了深度学习模型,如卷积神经网络(CNN)或视觉变换器(ViT)。
-
图构建:
- 基于图像块构建图,其中每个节点代表一个图像块。
- 根据图像块之间的关系(邻近或跨放大倍数)定义不同的边类型。
-
多尺度关系图卷积网络(RGCN):
- 步骤1:在每个尺度内,使用两层RGCN处理相邻节点,通过利用周围特征来获取每个位置的更 robust( robust 这里可能是指更鲁棒或更丰富的)特征。
- 步骤2:使用一层RGCN处理跨放大倍数的边,将一个放大倍数的特征转换到另一个放大倍数。
- 步骤3:再次使用两层RGCN处理相邻边,目的是结合和减少特征,为最终预测做准备。
- 步骤4:使用深度自注意力机制来更好地关注复杂特征,然后通过一个两层的全连接神经网络来输出最终的图像级别标签。
-
最终预测:
- 通过深度自注意力和全连接神经网络,模型能够为整个图像分配一个等级组标签,这是前列腺癌分级的一个重要步骤。
这个模型的创新之处在于它能够处理不同放大倍数下的图像块,并且通过图卷积网络有效地结合了这些不同尺度的特征,以提高病理图像分析的准确性。
知识星球
如需获取推文中提及的各种资料,欢迎加入我的知识星球!