Nature Communications: MOGONET使用图卷积网络集成多组学数据,允许患者分类和生物标志物识别
1. 论文简介
Wang T, Shao W, Huang Z, et al. MOGONET integrates multi-omics data using graph convolutional networks allowing patient classification and biomarker identification[J]. Nature communications, 2021, 12(1): 3445. https://www.nature.com/articles/s41467-021-23774-w
通讯作者: 美国印第安纳大学医学院医学系Kun Huang
相关代码: https://github.com/txWang/MOGONET
2. 摘要
为了充分利用组学技术的进步,实现对人类疾病更全面的认识,需要新的计算方法来整合分析多种类型的组学数据。在此,我们提出了一种新的多组学整合方法-多组学图卷积网络(Multi-Omics Graph cOnvolutional NETworks,MOGONET)用于生物医学分类。MOGONET联合探索组学特异性学习和跨组学相关学习,以实现有效的多组学数据分类。我们证明MOGONET优于其他先进的多组学综合分析方法,这些方法来自不同的生物医学分类应用,包括mRNA表达数据、DNA甲基化数据和microRNA表达数据。此外,MOGONET可以从与所研究的生物医学问题相关的不同组学数据类型中识别重要的生物标志物。
3. 引言
高通量生物医学技术的快速发展使各种类型的“组学”数据的收集具有前所未有的细节。对于同一组样品,可以获得不同分子过程的全基因组数据,如mRNA表达、DNA甲基化和microRNA (miRNA)表达,从而获得用于各种疾病研究的多组学(multi-omics)数据。虽然每种组学技术只能捕获生物复杂性的一部分,但整合多种类型的组学数据可以提供对潜在生物过程的更全面的看法。具体而言,对于人类疾病,现有研究表明,与仅使用单一类型的组学数据相比,整合多种组学技术的数据可以提高患者临床预后预测的准确性1-7。因此,需要新的综合分析方法来有效地利用多组学数据中的相互作用和互补信息。
多年来,人们提出了许多方法来对各种问题进行多组学数据集成。然而,大多数现有的努力都集中在无监督的多组学数据集成上,没有额外的样本标签信息8 - 10。随着个性化医疗的快速发展,带有详细注释的数据集正在变得越来越广泛,这些注释描述了样本的表型或特征。因此,人们对有监督的多组学整合方法越来越感兴趣,这种方法可以识别疾病相关的生物标志物并对新样本进行预测。早期对生物医学分类任务的监督数据集成方法的尝试包括基于特征拼接的策略和基于集成的策略。一方面,基于连接的方法通过直接连接输入数据特征来集成不同组学数据类型,从而学习分类模型5。另一方面,基于集合(ensemble-based)的方法集成了来自不同分类器的预测,每个分类器单独训练一种组学数据1。然而,这些方法未能考虑不同组学数据类型之间的相关性,并且可能偏向于某些组学数据类型。近年来,更多的多组学数据集成方法侧重于利用不同组学数据类型之间的相互作用。例如,van de Wiel等人6引入了一种自适应群正则化脊回归方法(adaptive group-regularized ridge regression method),该方法结合了甲基化微阵列数据和甲基化探针的注释,用于宫颈癌诊断分类。Singh等人4通过将稀疏广义典型相关分析扩展到监督设置,提出了使用潜成分进行生物标志物发现的数据集成分析方法( Data Integration Analysis for Biomarker discovery using Latent cOmponents, DIABLO),该分析可以在区分不同表型组的同时寻找多个组学类型的共同信息。
随着深度学习在各种任务中的不断推进,越来越多的多组学集成方法开始利用深度神经网络(NN)的高学习能力和灵活性2,11 - 13。例如,Huang等人2将mRNA和miRNA表达数据的特征与其他隐藏层的临床信息相结合,以更好地预测乳腺癌的预后。然而,这些现有的方法都是基于全连接网络,没有通过相似网络有效地利用样本之间的相关性。此外,虽然目前基于深度学习的方法通常在输入空间11、13或学习到的特征空间2、12中集成不同的组学数据,但不同类型的组学数据在高层次标签空间也可以呈现出独特的特征。因此,利用不同类和不同组学数据类型之间的相关性来进一步提高学习性能至关重要。
为此,我们介绍了MOGONET,一个用于生物医学应用中的分类任务的多组学数据分析框架。MOGONET将组学特定学习与标签空间的多组学整合分类相结合。具体来说,MOGONET利用图卷积网络(graph convolutional networks,GCN)进行组学特定学习。与全连接神经网络相比,GCN既利用了组学特征,又利用了相似网络描述的样本间的相关性,从而获得了更好的分类性能。除了直接连接各个组学数据类型的标签分布外,MOGONET还利用**视图关联发现网络(View Correlation Discovery Network, VCDN)**在标签空间探索跨组学的相关性,以实现有效的多组学集成。据我们所知,MOGONET是第一个有监督的多组学整合方法,它利用GCNs进行组学数据学习,对新样本进行有效的分类预测。我们通过广泛的生物医学分类应用展示了MOGONET的功能和多功能性,包括阿尔茨海默病患者分类、低级别胶质瘤(low-grade glioma, LGG)的肿瘤分级、肾癌类型分类和乳腺癌浸润性癌亚型分类。通过综合消融研究,我们还展示了整合多组学数据类型的必要性,以及GCN和VCDN结合对多组学数据分类的重要性。此外,我们证明MOGONET可以识别与所研究的生物医学问题相关的重要组学特征和生物标志物。
4. 结果
4.1 MOGONET框架
我们引入了MOGONET,一种用于生物医学分类任务的监督多组学集成框架**(图1)。经过预处理和特征预选以去除噪声和冗余特征后,我们首先使用GCNs分别学习每个组学数据类型的分类任务。具体而言,我们使用余弦相似度为每种组学数据构建了加权样本相似度网络。以组学特征和相应的相似度网络为输入,为每个组学数据类型训练GCN以生成类标签的初始预测。GCNs的一个主要优势是,它们可以利用组学数据中的信息和样本之间的相关性进行更好的预测。然后,利用每个组学特异性GCN生成的初始预测进一步构建反映跨组学标签相关性的跨组学发现张量。最后,将跨组学发现张量( cross-omics discovery tensor)**重塑为向量,转发给VCDN进行最终的标签预测。VCDN通过探索更高层次标签空间中不同组学数据类型之间的潜在相关性,可以有效地整合来自每个组学特定网络的初始预测。MOGONET是一个端到端模型,组学特异性GCNs和VCDN交替训练直到收敛。为此, MOGONET的最终预测基于GCNs生成的有效组学特异性预测和VCDN生成的学习到的跨组学标签相关知识。据我们所知,MOGONET是第一个在标签空间中探索GCNs和跨组学关系的方法,以便在生物医学数据分类任务中有效地整合多组学。
**图1. MOGONET的图示。**MOGONET结合了用于多组学特定学习的GCN和用于多组学集成的VCDN。为了清晰简洁的说明,选择单个样本示例来演示用于多组学集成的VCDN组件。首先对每个组学数据类型进行预处理,去除噪声和冗余特征。每个特定于组学的GCN都经过训练,使用组学特征和从组学数据生成的相应样本相似性网络进行类别预测。跨组学发现张量由组学特异性GCNs的初始预测计算,转发给VCDN进行最终预测。MOGONET是一个端到端模型,所有网络都是联合训练的。
4.2 数据集
为了证明MOGONET的有效性,我们使用四种不同的数据集将提出的方法应用于四种不同的生物医学分类任务: ROSMAP用于阿尔茨海默病(AD)患者与正常对照(NC)的分类,LGG用于低级别胶质瘤(LGG)的分级,KIPAN用于肾癌类型分类,BRCA用于乳腺浸润性癌(BRCA) PAM50亚型分类。三种组学数据(即mRNA表达数据)(mRNA)、DNA甲基化数据(甲基化)和miRNA表达数据(miRNA))进行分类,为疾病提供全面和补充的信息。只有mRNA表达、DNA甲基化和miRNA表达数据匹配的样本才被纳入我们的研究。数据集的详细信息如表1所示。由于噪声冗余特征可能会影响分类任务的性能,因此对每个组学数据类型分别进行预处理和特征预选,用于训练的特征数量也列在表1中。
通过Broad GDAC Firehose从the Cancer Genome Atlas Program (TCGA)获得LGG、KIPAN和BRCA的组学数据以及LGG患者的分级信息。PAM50是一个包含50个基因的标记,可将乳腺癌分为5种分子亚型:正常样、基底样、人表皮生长因子受体2 (HER2)富集、Luminal a和Luminal b14,15。通过TCGAbiolinks16获取TCGA BRCA患者的PAM50乳腺癌亚型信息。ROSMAP数据集中的不同组学数据来自AMP-AD Knowledge Portal17。ROSMAP由ROS和MAP组成,两者都是来自拉什大学的AD纵向临床病理队列研究18,19。
对于肾癌的类型分类,在组学数据中可以清楚地观察到憎色肾细胞癌(KICH)、透明肾细胞癌(KIRC)和乳头状肾细胞癌(KIRP)之间的差异。因此,肾癌类型分类是这些分类任务中最简单的任务,更多的是作为多类别应用的概念验证实验。另一方面,虽然对癌症的多组学整合方法已经得到了很好的研究2,4,11 - 13,但使用多组学数据类型分析AD是一个新兴领域。例如,Jiang等20通过分析mRNA和miRNA的表达数据,确定AD中的活性转录因子和miRNA调控途径,从而更好地了解AD的病理。Humphries等21结合了RNA测序和DNA甲基化数据来鉴定与晚发性AD相关的基因网络。然而,使用机器学习算法直接解决从正常年龄匹配的人群中准确识别AD患者的方法仍然有限。在这里,为了展示MOGONET对不同疾病和医学应用的泛化能力,我们还使用ROSMAP数据集将MOGONET应用于AD患者分类,在我们的实验中选择AD患者和NC受试者进行分类任务。
说明:样本量基本都是数百个,看似是针对小样本学习的方法,有可能在我们的小样本数据集上是有效的。
4.3 多组学分类性能评价
我们将MOGONET的分类性能与现有的有监督多组学集成算法进行了比较。我们也进行了全面的消融研究,以证明MOGONET中不同组件的必要性。为了比较不同多组学整合方法的有效性,我们随机选择数据集中30%的样本作为测试集,其余70%的样本作为训练集。通过保留原始数据集中的类分布来构造测试集。为了评价比较方法的性能,我们对二元分类任务使用精度(ACC)、F1分数(F1)和接收者工作特征曲线下面积(AUC),对多类分类任务使用精度(ACC)、支持度加权平均F1分数(F1_weighted)和宏观平均F1分数(F1_macro)。我们在五个不同的随机生成的训练和测试分割上对所有方法进行了评估,并报告了这五个实验中评估指标的平均值和标准差。
4.4 MOGONET在各种分类任务中优于现有的监督多组学集成方法
我们将MOGONET的分类性能与以下9种现有的组学数据分类算法进行了比较: (1)k近邻分类器(KNN)。通过对训练数据中的KNN进行投票进行标签预测。(2)支持向量机分类器(SVM)。(3)用L1正则化(Lasso)训练的线性回归。在Lasso中,训练一个单独的模型来预测每个类别的概率,并选择预测概率最高的类别作为整个模型的类别标签的最终预测。(4)随机森林分类器(RF)。(5)在XGBoost包中实现的基于梯度树提升的分类器(XGBoost)。(6)全连接NN分类器。深度全连接神经网络采用交叉熵损失训练。(7)自适应群正则化脊回归(GRridge)使用GRridge R包中的实现。**(8)Block PLSDA。Block PLSDA是一种多组学集成方法,通过判别分析将数据投影到潜在结构中。Block PLSDA集成了在同一组样本上测量的多种类型的组学数据,以对离散结果进行分类。Block PLSDA是DIABLO4中包含的监督分析方法之一。(9)Block sPLSDA。**Block sPLSDA是附加了稀疏正则化的Block PLSDA,可以从数据集中选择相关特征。它也是DIABLO中的一种监督分析方法。mixOmics R包22中的实现用于Block PLSDA和Block sPLSDA。Block PLSDA和Block sPLSDA代表了监督多组学整合和分类的最新方法。在测试的方法中,KNN、SVM、Lasso、RF、XGBoost和NN以预处理后的多组学数据直接拼接为输入进行训练。所有方法都使用相同的预处理数据进行训练。ROSMAP、LGG、BRCA、KIPAN的分类结果分别见表2-4和补充表1。
从表2-4和补充表1中,我们观察到MOGONET在大多数分类任务中优于比较的多组学集成方法。唯一的例外是在LGG等级分类中,XGBoost和MOGONET产生相同的平均AUC。然而,当使用ACC和F1进行评价时,MOGONET在LGG等级分类上的表现仍然优于XGBoost。此外,我们使用平均AUC分数加权支持度(AUC_weighted)和多类分类任务的性能评估宏观平均AUC评分(AUC_macro), BRCA和KIPAN的结果见补充表6和7。当使用AUC指标进行评估时,MOGONET在BRCA数据集上取得了最佳性能,同时在KIPAN数据集上取得了与GRridge相同的平均AUC分数。请注意,使用KIPAN数据集对肾癌类型进行分类是一项相对简单的任务,作为多类别应用的概念验证实验,其中所有比较的方法在不同指标上都取得了相当高的性能。然而,当在KIPAN数据集上使用ACC、F1_weighted和F1_macro进行评估时,MOGONET的性能仍然优于GRridge。此外,MOGONET在不同的分类任务中始终优于当前最先进的有监督多组学集成方法(即block PLSDA和block sPLSDA),通过将用于组学特异性学习的GCNs与用于多组学集成的VCDN相结合,展示了多组学数据分类能力的优越性。与现有方法相比,在AD患者分类、BRCA亚型分类等较为困难的应用中,MOGONET的优势得到了进一步体现,表明MOGONET具有优越的学习能力。有趣的是,尽管基于深度学习的方法在分类应用中显示出巨大的前景,但基于深度学习的方法NN并没有比其他方法显示出明显的改进。这一观察结果表明,需要适当设计针对有监督的多组学集成应用的深度学习算法,以实现卓越的分类性能。
使用PAM50分类的不同亚型BRCA可能表明不同的肿瘤发生机制,并且某些亚型可能在分子特征上比其他亚型更接近。因此,我们在使用5个亚型的标签进行训练的同时,使用以下两个额外的标签定义进一步评估不同方法对BRCA PAM50亚型分类的性能。一种是正常样与非正常样亚型的二元分类,其中非正常样类别包括其余四种不同的亚型(补充表2)。另一种包括四个类别,其中Luminal A和Luminal B亚型合并为一个类别,因为它们比其他亚型更具相关性(补充表3)14,15。需要注意的是,对于相同的方法,表4和补充表2和补充表3的结果来自于对同一组模型的评估,这组模型对5种BRCA亚型进行了预测,而用于评估的只是标签的不同定义。综合考虑,表4和补充表2、3在考虑BRCA亚型之间的层次关系的情况下,能全面反映分类效果。从补充表2中,我们观察到block PLSDA,block sPLSDA和MOGONET在正常样亚型与非正常样亚型的分类上取得了相似的性能,其中MOGONET产生更好的ACC,块PLSDA和块sPLSDA产生更好的F1和AUC。然而,在区分非正态类的不同亚型时,块PLSDA和块sPLSDA的性能都明显低于MOGONET(表4和补充表3)。另一方面,在这三种不同的亚型定义下,MOGONET的性能始终优于其他方法(表4和补充表2和补充表3)。这表明MOGONET可以有效区分不同的BRCA亚型,同时考虑到不同亚型之间的内在关系。
为了进一步证明MOGONET的可泛化性,我们还通过在BRCA数据集中对来自不同机构的不同患者队列进行训练和测试来评估其性能(补充表4)。从补充表4中,我们观察到MOGONET与随机划分的训练和测试样本的实验取得了相似的性能,这表明MOGONET模型可以泛化到相同分类任务的不同数据集上。
4.5 MOGONET在各种分类任务中的表现优于其变体
MOGONET结合了通过GCNs进行的组学特异性学习和通过VCDN进行的跨组学相关学习,实现了有效的多组学分类。为了检验GCN和VCDN对有效的多组学数据分类的必要性,我们对我们提出的方法进行了广泛的消蚀研究,其中比较了MOGONET的另外三种变体。(1) NN_NN:使用与MOGONET中GCN部分具有相同层数和相同隐藏层维数的全连接NN进行组学特异性分类。采用与VCDN相同层数的全连接神经网络进行多组学集成。然而,该方法不是构建跨组学发现张量,而是将每个组学数据类型的标签分布直接连接到一个向量中,作为多组学集成网络的输入。(2) NN_VCDN:在不使用GCNs的情况下,组学特异性分类成分与NN_NN相同。多组集成组件采用VCDN,与MOGONET相同。**(3) MOGONET_NN:**组学特异性分类组件使用GCN,与MOGONET相同。在未使用VCDN的情况下,多组学集成部分与NN_NN相同。注意,MOGONET_NN本身也是一种新颖的方法。据我们所知,目前还没有将GCNs应用于有监督的多组学数据分类问题的方法。
如表2-4和补充表1所示,我们观察到MOGONET在所有分类任务中都优于NN_NN和NN_VCDN。虽然MOGONET_NN在LGG等级分类等任务中取得了与MOGONET相似的性能,但在所有分类任务中,MOGONET仍然始终比MOGONET_NN产生更好的平均指标。MOGONET_NN和MOGONET之间的性能相似,MOGONET_NN的性能优于NN_VCDN,这表明我们将GCNs用于多组学分类任务,与现有方法相比,对MOGONET的性能提升做出了重大贡献。与仅从组学特征中学习的传统神经网络相比,GCNs进一步利用了数据中的图结构信息。这对于更全面地理解组学数据至关重要,因为它捕获了样本之间的联系和相关性。MOGONET_NN和MOGONET表现相似的另一个可能原因是,当不同类别的数量很少时,标签空间中的交叉视图相关性的贡献可能会受到限制。例如,在LGG等级分类问题中,不同标签的数量被限制为两个。在这种情况下,MOGONET_NN和MOGONET对于多组学集成组件共享相同的层数,只是输入维度不同。在LGG等级分类问题中,MOGONET_NN中多组学集成组件的输入维数为2 × 3 = 6,而MOGONET中同一组件的输入维数为 2 3 = 8 2^3 = 8 23=8。虽然VCDN可以有效地利用标签空间中的交叉视图相关性,但当不同标签的数量较少时,这种优势可能会受到限制。此外,在将VCDN应用于人体动作识别中,当处理超过十类的复杂数据集时,其相对于神经网络的优势更加明显23。然而,探索交叉视图相关性对于多组学分类仍然至关重要,因为我们观察到MOGONET在不同评估指标下的所有分类任务中都比MOGONET_NN产生更好的结果。另一个有趣的观察是,虽然MOGONET始终优于MOGONET_NN,但NN_VCDN未能在所有分类任务中始终优于NN_NN。对此的一种可能解释与跨组学发现张量的构建有关。由于VCDN的输入是通过将每个组学特定分类器预测的类概率相乘来构建的,如果组学特定分类器不有效,则可能会放大预测噪声或误差。因此,需要GCNs进行有效的组学特异性学习,以充分利用VCDN的优势,并且可以将这两个组件联合训练,以在多组学分类任务中获得更好的结果。
4.6 MOGONET在不同组学数据类型下的性能
虽然我们在分类任务中使用了三种组学数据类型,但MOGONET也可以扩展以适应不同数量的组学数据类型。为了证明MOGONET在不同数据模式选择下的有效性,我们仅使用两种组学数据: mRNA表达数据和DNA甲基化数据(补充表5),将其与其他方法在BRCA数据集上的性能进行了比较。我们观察到,与使用三种不同组学数据类型的情况类似,当使用mRNA表达和DNA甲基化数据进行训练时,MOGONET在BRCA数据集上的性能仍然优于现有方法。这表明MOGONET可以扩展到不同数量的组学数据类型。
此外,为了进一步证明整合多类型组学数据以提高生物医学应用中分类性能的必要性,我们比较了MOGONET与三种组学数据(mRNA +甲基化+ miRNA结合mRNA表达、DNA甲基化和miRNA表达数据)、MOGONET与两种组学数据(mRNA +甲基化结合mRNA表达和DNA甲基化数据)的分类性能。mRNA + miRNA用于结合mRNA表达和miRNA表达数据,甲基化+ miRNA用于结合DNA甲基化和miRNA表达数据),以及整合前使用单组学数据类型训练的组学特异性GCNs (mRNA用于mRNA表达数据,甲基化用于DNA甲基化数据,miRNA用于miRNA表达数据)。结果如图2和补充图1所示。从图2和补充图1中,我们观察到,通过VCDN探索跨组学标签相关性,通过整合多个组学数据类型的分类结果,分类性能不断提高。**具体而言,在所有分类任务中,与使用两种组学数据类型训练的MOGONET模型相比,使用三种组学数据类型训练的MOGONET模型取得了最好的性能。**此外,所有使用两种组学数据类型训练的MOGONET模型都优于使用相应组学数据类型的单组学GCN模型。另一个有趣的观察结果是,一些具有两种组学数据类型(如ROSMAP数据集中的mRNA + miRNA, BRCA数据集中的mRNA + meth和mRNA + miRNA)和组学特异性GCN(如BRCA数据集中的mRNA GCN)的MOGONET模型即使与现有的一些使用三种组学数据类型训练的多组学集成方法相比,也能产生更好的结果。这进一步证明了GCNs在组学数据分类问题中的有效性,以及使用VCDN对组学数据进行跨组学学习的有效性。
**图2. MOGONET多组学数据分类与GCN单组学数据分类性能比较(每个模型n = 5次实验)。a. ROSMAP数据集结果。b.LGG数据集结果。c. BRCA数据集的结果。**不同实验的评价指标的标准差均值如图所示,其中误差条表示正/负一个标准差。mRNA、甲基化和miRNA是通过GCN分别与mRNA表达数据、DNA甲基化数据和miRNA表达数据进行单组学数据分类。mRNA + meth、mRNA + miRNA和meth + miRNA是指用两种组学数据进行分类。mRNA + meth + miRNA是指用三种组学数据进行分类。源数据作为源数据文件提供。
4.7 不同超参数k下MOGONET的性能
MOGONET中一个重要的超参数是k,它在为组学特异性GCNs构建加权样本相似性网络时自适应确定亲和值的阈值(Eq.(4))。在我们的应用中,k表示相似性网络中保留的每个样本的平均边数。忠实地捕捉样本之间相互作用的相似网络可以通过提供额外的样本相关性信息来提高GCNs的性能。但是,如果k太小,相似性网络会变得过于稀疏,可能会错过样本之间一些重要的相互作用。相反,如果k太大,相似性网络就会变得过于密集,并且可能包含样本之间相关性的噪声或伪影。因此,选择合适的k值对于MOGONET的性能至关重要。然而,k的正确选择取决于数据的拓扑结构,这可能因数据集而异。在我们的实验中,k是通过对训练数据的交叉验证来确定的。为了进一步证明超参数k对MOGONET在二元和多类分类任务中的性能的影响,我们使用ROSMAP数据集和BRCA数据集在广泛的k值下训练MOGONET。图3显示了k从2到10变化时MOGONET的性能,其中虚线表示现有多组学集成方法(GRridge用于ROSMAP, XGBoost用于BRCA)的最佳结果。从图3中我们可以看出,超参数k确实会影响MOGONET的分类性能,其分类性能会随着k的变化而波动,但MOGONET对k的变化仍然具有鲁棒性,在不同k值下,MOGONET的分类性能始终优于现有方法。唯一的例外是当k = 7i在ROSMAP数据集中。在这种情况下,GRridge的AUC高于MOGONET,但MOGONET提供的ACC和F1仍高于GRridge。
**图3. 不同超参数k值下MOGONET的性能。a. ROSMAP数据集的结构。 b. BRCA数据集的结果。**虚线表示现有多组学整合方法(GRridge用于ROSMAP, XGBoost用于BRCA)的最佳结果。在不同的k值下,MOGONET优于现有的最佳方法。源数据作为源数据文件提供。
4.8 MOGONET鉴定的重要生物标志物
根据“方法”一节介绍的方法,我们获得了MOGONET鉴定的重要生物标志物的排名。ROSMAP、BRCA和LGG数据集的前30个重要生物标志物分别报告于表5、表6和补充表8,相应的排名见补充表9-11。如前几节所述,KIPAN数据集作为多类别应用的概念验证实验,因此被排除在进一步详细的生物标志物鉴定分析之外。总体而言,MOGONET鉴定的生物标志物在每种疾病中的功能和丰富的生物过程方面都非常多样化。关于ROSMAP和BRCA数据集结果的详细讨论在以下章节中,而关于LGG数据集的结果见补充讨论。为了比较,我们还使用mixOmics R包 22中的sPLSDA24来识别ROSMAP、BRCA和LGG数据集中的重要特征(补充表12-14)。与block sPLSDA不同,sPLSDA不要求用户单独指定每种组学数据类型已识别的生物标志物的数量,这允许与MOGONET进行更直接的比较。
对于mRNA表达特征排名靠前的基因和DNA甲基化特征推断出的基因,我们使用ToppGene Suite25进行基因集功能富集分析。**富集分析有助于我们确定MOGONET鉴定的基因是否具有生物学意义。**ToppGene Suite可以找到生物注释,如基因本体(GO)术语,这些术语在一组基因中显着丰富。为了考虑多个测试并控制错误发现率(FDR),应用Benjamini-Hochberg程序,并报告调整后的p值。
4.9 MOGONET确定了与阿尔茨海默病相关的生物标志物
对于AD患者分类,MOGONET鉴定出8个mRNA特征、5个DNA甲基化特征和17个miRNA特征作为前30个重要生物标志物(表5)。对于mRNA表达特征鉴定的基因,与APLN和KIF5A相关的几个GO术语显著富集,包括Apelin受体结合(GO:0031704, p = 4.90E−2)和生长锥中心区域(GO:0090724, p = 4.82 2e−2)。此外,从mRNA表达中鉴定的基因也显著丰富了Apelin结构域(p = 1.15E−2)。Apelin被认为是AD26,27的一个有希望的靶点。Apelin在人类中枢神经系统的各个部位均有表达,在AD27的发病机制中起重要作用。例如,有研究表明,Apelin可能参与Tau磷酸化和淀粉样蛋白-β积累的调节,从而影响AD26,27,29的病理生理。此外,作为kinesin-1的关键亚型,KIF5A在促进神经元线粒体的顺行运输中起着至关重要的作用。Wang等人31也报道了KIF5A缺乏在AD相关轴突线粒体交通异常中的潜在作用,并提出了通过恢复KIF5A功能在AD治疗中的治疗价值。对于与MOGONET鉴定的DNA甲基化特征相关的基因,与炎症过程相关的几个GO术语显着富集,包括髓系白细胞活化(GO:0002274, p = 3.30E−2),细胞因子分泌的正调控(GO:0050715, p = 3.30E−2),炎症反应的正调控(GO:0050729, p = 3.30E−2)。几项研究表明炎症因子水平升高,表明炎症参与了AD的发病机制26,32,33。也有研究表明,细胞因子和趋化因子的分泌可以调节AD小胶质细胞和星形胶质细胞的活性,而小胶质细胞和星形胶质细胞在炎症和神经变性中起关键作用34。另一方面,在sPLSDA鉴定的生物标志物中,一些与溶质载体家族相关的氧化石墨烯项显著富集,如氨基酸钠同体活性(GO:0005283, p = 1.56E−2)。此外,还鉴定了APLN和另一个与激酶蛋白-1相关的基因KIF5B。
此外,MOGONET鉴定的高级别基因和miRNA也被证明与AD相关。Cogswell等35发现,与对照样本相比,早期和晚期AD患者海马和内侧额回中hsa-miR-423的表达水平显著改变,其中海马和内侧额回都是AD病理主要影响的区域。此外,Nagaraj等人36报道,hsa-miR-33a在AD患者和年龄匹配的对照组血浆中表达有差异。用于鉴定mRNA表达和DNA甲基化生物标志物,Hohman等人37发现TMC4的低表达与淀粉样蛋白沉积相关的执行功能下降有关。此外,CDK18的过表达可以调节人脑中Tau蛋白的磷酸化,而已知Tau蛋白的过磷酸化与AD的病理有关38。
4.10 MOGONET发现了与乳腺癌相关的生物标志物。
对于BRCA PAM50亚型分类,MOGONET鉴定出15个mRNA特征,9个DNA甲基化特征和6个miRNA特征作为前30个重要生物标志物(表6)。在mRNA表达特征鉴定的基因中,与乳腺癌相关的几个GO术语显著富集,包括上皮细胞增殖(GO:0050673, p = 3.51E−2)和对黄体酮的反应(GO:0032570, p = 3.51E−2)。例如,孕激素受体通常被用作雌激素受体-α (ERα)阳性乳腺癌患者的阳性预后标志物39。Mohammed等人40进一步证明,活化的孕酮受体可以通过调节ERα染色质结合和转录活性,在ERα+乳腺肿瘤中发挥增殖抑制作用。与溶质载体家族相关的几个氧化石墨烯术语也显著丰富,如神经递质跨膜转运蛋白活性(GO:0005326, p = 5.35E−4)和同质转运蛋白活性(GO:0015293, p = 4.35E−3)。在已确定的溶质载体家族基因中,SLC6A14已被证明是三阴性乳腺癌(TNBC)中二甲双胍下调的葡萄糖代谢相关基因之一41。此外,与MOGONET鉴定的DNA甲基化特征相关的基因的prosaposin(前体脂质蛋白)受体活性(GO:0036505, p = 2.69E−2)显著增强。Wu等人42研究发现,prosaposin可通过丝裂原活化蛋白激酶(MAPK)信号通路上调雌激素受体α的表达,提示prosaposin可能参与乳腺癌的发生发展。另一方面,通过sPLSDA从mRNA表达数据中鉴定的基因,没有发现明显富集的GO项。对于sPLSDA鉴定的DNA甲基化特征,几个生物过程术语显著富集,包括MAPK级联的正调控(GO:0043410, p = 4.26E−2)和葡萄糖代谢过程的调控(GO:0010906, p = 4.26E−2)。研究表明,激素结合的类固醇受体激活乳腺癌细胞中不同的复杂mapk相关通路43,44。也有研究表明,葡萄糖和与葡萄糖代谢相关的因素可能导致乳腺癌的发展45。
此外,MOGONET鉴定的高级别基因和miRNA也被证明与乳腺癌有关。例如,Shepherd等人46证明SOX11对于调节许多定义基底样亚型的基因的表达至关重要。他们还证实SOX11与基底样乳腺肿瘤的侵袭和迁移有关。FABP7也被证明与不同的乳腺癌亚型有关。Cordero等47揭示了FABP7在HER2+乳腺癌细胞代谢重编程以及HER2+乳腺癌脑转移中的关键作用。Zhang等人48在基底样乳腺肿瘤中发现了一个新的亚群,其FABP7表达较高,临床结果明显较好。对于已确定的miRNA生物标志物,已经有几项研究调查了miRNA-205与乳腺癌之间的关系。具体来说,miRNA-205在乳腺癌中普遍下调并表现出肿瘤抑制功能49。虽然miRNA-205在乳腺癌中的表达降低,但不同亚型的相对下调水平有所不同。例如,与HER2+乳腺癌相比,miRNA-205在雌激素/孕激素+乳腺癌中表达上调50,而tnbc在不同亚型中表达的miRNA-205通常最少51,52。此外,不同的研究也表明,转移性乳腺癌的miRNA-205表达水平低于非转移性乳腺癌51,53。此外,miRNA-187被确定为乳腺癌的独立预后因素,其过表达与更具侵袭性的表型相关54。
5. 讨论
组学技术的快速发展使得使用分子水平数据的个性化医疗具有前所未有的细节。在此之前,由于收集和注释数据的费用高昂,以及缺乏对疾病亚型的了解,标记的生物医学数据很少。因此,大多数现有的多组学整合方法侧重于没有额外表型信息的无监督方法,并试图从已识别的样本簇中提取生物学见解。然而,由于组学技术和个性化医疗的快速发展,以及TCGA和ROSMAP等大型联合研究,带详细注释的标记组学数据集正以前所未有的数量和速度变得可用。因此,利用这些标记组学数据在新样本上更好地预测基本表型或性状(如疾病诊断、肿瘤分级和癌症亚型)变得越来越重要。为此,我们提出了MOGONET,这是一种基于深度多视图学习的生物医学分类任务的监督多组学集成方法,其中我们将每个组学数据类型视为样本的视图。我们利用GCNs进行组学特异性学习,利用VCDN在高层次标签空间进行多组学集成。MOGONET还有效地在每种组学数据类型中识别出与疾病有强烈关联的有意义的潜在生物标志物。综上所述,MOGONET是一种创新的基于深度学习的多组学分类算法,具有优越的性能和良好的可解释性。
与全连接网络相比,GCNs可以同时利用数据的特征和几何结构。虽然常用的全连接网络只能在结构化数据上进行训练,但GCNs也可以将神经网络推广到任意结构的图上。这表明我们基于GCN的方法是灵活的,并且可以潜在地推广到包括更多的数据类型,以提高未来的分类性能。我们也证明了VCDN可以有效地分类multi-omics之下产生的数据通过集成omics-specific分类标签空间。由于VCDN输入中的每个元素都是由来自不同分类器的类概率相乘构建的,因此VCDN可能对组学特定学习中产生的噪声或错误更敏感。因此,为了充分利用VCDN的优势,需要通过GCNs进行有效的组学特异性分类。通过消融研究,我们证明GCNs和VCDN对于有效的多组学数据分类都是必不可少的,而GCNs可能在本文的生物医学分类任务中发挥更重要的作用。
虽然我们在本文中仅使用mRNA表达、DNA甲基化和miRNA表达数据进行多组学分类任务,但组学特异性GCNs和多组学整合组件都可以扩展以适应不同或更多类型的数据。具体来说,对于具有c个类和m种不同数据类型的分类任务,可以为每种数据类型训练一个单独的GCN。对于多组学分类,每个组学特异性GCN生成的标签分布可以通过MOGONET_NN中的直接连接或构建 c m c^m cm维交叉组学进行整合使用与MOGONET类似的方式创建发现向量。因此,MOGONET是一个有监督的多组学分类框架,可以推广到适应许多不同的组学数据类型。
6. 方法
6.1 MOGONET概述
MOGONET是一个用于多组学数据分类任务的框架。MOGONET的工作流程可以概括为三个部分:**(1)预处理。对每个组学数据类型分别进行预处理和特征预选,以去除可能影响分类任务性能的噪声、伪影和冗余特征。(2)通过GCNs进行组学特异性学习。针对每一组学数据类型,根据组学特征构建加权样本相似度网络。然后,使用组学特征和相应的相似性网络训练GCN进行组学特异性学习。(3)基于VCDN的多组学集成。**使用来自所有组特定网络的初始类概率预测计算跨组学发现张量。然后用交叉组学发现张量训练VCDN以产生最终预测。VCDN可以有效地学习更高层次标签空间中的组内和组间标签相关性,以便更好地对多组学数据进行分类。MOGONET是一个端到端模型,其中组学特异性GCNs和VCDN都是联合训练的。我们将在下面的部分中详细描述每个组件。
6.2 预处理
为了消除数据中的噪声和实验伪影,更好地解释结果,对组学数据进行适当的预处理是必不可少的。首先,对于DNA甲基化数据,仅保留与Illumina Infinium HumanMethylation27 BeadChip中的探针相对应的探针,以便更好地解释结果。表1列出了每个数据集和组学数据类型的特征数量。然后,我们进一步滤除无信号(零均值)或低方差的特征。具体来说,我们对不同类型的组学数据应用了不同的方差过滤阈值(mRNA表达数据为0.1,DNA甲基化数据为0.001),因为不同的组学数据类型具有不同的范围。对于miRNA表达数据,我们只过滤掉没有变化的特征(方差等于零),因为miRNA数量少,可用的特征有限。所有实验均采用相同的方差阈值。
由于组学数据可能包含冗余特征,这些特征可能会对分类性能产生负面影响,因此我们进一步通过统计检验对组学特征进行预选。对于每个分类任务,使用训练数据依次计算ANOVA F-value,以评估一个特征在不同类别之间是否存在显著差异,其中采用FDR控制程序进行多重检验补偿。然而,选择太少的特征也可能导致只选择高度相关的特征,这可能会限制模型利用来自不同特征的互补信息。为了避免这种情况,我们用一个额外的规则来确定每种组学数据类型的预选特征的数量,即,特征预选后数据的第一个主成分应该解释<50%的方差。我们还证明了MOGONET可以在广泛的不同数量的预选特征下产生一致的结果(补充图2)。每个数据集的预选特征数量如表1所示。最后,我们通过线性变换将每种组学数据分别缩放到[0,1],用于训练MOGONET。
6.3 用于组学特定学习的图神经网络
我们在MOGONET中使用GCN进行组学特定学习,其中GCN针对每种组学数据类型进行训练以执行分类任务。虽然现有的GCN模型主要侧重于半监督学习,通过将标记从标记数据传播到未标记的数据55-58,但这些方法在临床应用中的价值可能有限,因为学习到的GCN模型不能直接应用于预测在训练过程中可能无法获得数据的新样本。因此,在这项工作中,我们探索了GCN在监督学习中的应用。我们的目标是在网络训练过程中通过图来捕捉数据的内在结构。这类似于以前的流形学习方法,通过使用图正则化器来保留数据的局部信息。在监督环境下,图神经网络的好处在于,它不仅捕获了由于每个类的多模态现象而产生的局部类内信息,而且还通过考虑类间信息寻求更多的判别特征。
通过将每个样本视为样本相似网络中的一个节点,MOGONET中的每个GCN的目标是学习图
G
=
(
V
,
ϵ
)
\mathcal{G}=(\mathcal{V}, \epsilon)
G=(V,ϵ)上的特征函数, 通过利用每个节点的特征和图
G
\mathcal{G}
G所表征的节点之间的关系来执行分类任务。因此,GCN模型接受以下两个输入。一个输入是特征矩阵
X
∈
R
n
×
d
X \in \mathbb{R}^{n \times d}
X∈Rn×d,其中n为节点数,d为输入特征数。另一个输入是图结构的描述,可以用邻接矩阵
A
∈
R
n
×
n
A \in \mathbb{R}^{n \times n }
A∈Rn×n的形式表示。GCN可以通过堆叠多个卷积层来构建。具体来说,每一层定义为:
H
(
l
+
1
)
=
f
(
H
(
l
)
)
=
σ
(
A
H
(
l
)
W
(
l
)
)
H^{(l+1)} = f(H^{(l)}) = \sigma(AH^{(l)}W^{(l)})
H(l+1)=f(H(l))=σ(AH(l)W(l))
其中
H
(
l
)
H(l)
H(l)为第
l
l
l层的输入,
W
(
l
)
W(l)
W(l)为第
l
l
l层的权值矩阵。
σ
(
⋅
)
σ(⋅)
σ(⋅)为非线性激活函数。为了有效地训练GCNs, Kipf和Welling55进一步将邻接矩阵A修改为:
A
~
=
D
^
−
1
2
A
^
D
^
−
1
2
=
D
^
−
1
2
(
A
^
+
I
)
D
^
−
1
2
\tilde A = \hat D ^{- \frac{1}{2}}\hat A \hat D^{-\frac{1}{2}} = \hat D ^{- \frac{1}{2}}(\hat A + I)\hat D^{-\frac{1}{2}}
A~=D^−21A^D^−21=D^−21(A^+I)D^−21
其中
D
^
\hat D
D^是
A
^
\hat A
A^的对角节点度矩阵,
I
I
I是单位矩阵。
在MOGONET中,原始邻接矩阵
A
A
A是通过计算节点对之间的余弦相似度来构建的,余弦相似度大于阈值的边缘被保留。具体地说,
A
i
j
A_{ij}
Aij,即图中节点
i
i
i与节点
j
j
j之间的邻接关系,计算为:
A
i
j
=
{
s
(
X
i
,
X
j
)
,
i
f
i
≠
j
a
n
d
s
(
X
i
,
X
j
)
≥
ϵ
0
,
o
t
h
e
r
w
i
s
e
A_{ij} = \begin{cases} s(X_i, X_j),&if\ i\neq j\ and\ s(X_i, X_j) \geq \epsilon \\ 0,& otherwise \end{cases}
Aij={s(Xi,Xj),0,if i=j and s(Xi,Xj)≥ϵotherwise
其中
x
i
x_i
xi和
x
j
x_j
xj分别为节点
i
i
i和节点
j
j
j的特征向量。
s
(
x
i
,
x
j
)
=
x
i
⋅
x
j
∣
∣
x
i
∣
∣
2
∣
∣
x
j
∣
∣
2
s(x_i,x_j)=\frac{x_i\cdot x_j}{||x_i||_2||x_j||_2}
s(xi,xj)=∣∣xi∣∣2∣∣xj∣∣2xi⋅xj是节点i和j之间的余弦相似度。阈值
λ
λ
λ是给定参数
k
k
k来确定的,
k
k
k表示每个节点保留的平均边数,包括自连接:
k
=
∑
i
,
j
I
(
s
(
X
i
,
X
j
)
≥
ϵ
)
/
n
k = \sum_{i,j}I(s(X_i, X_j) \geq \epsilon ) / n
k=i,j∑I(s(Xi,Xj)≥ϵ)/n
式中
I
(
⋅
)
I(⋅)
I(⋅)为指示函数,
n
n
n为节点数。
E
q
.
(
4
)
Eq.(4)
Eq.(4)中生成邻接矩阵的参数
k
∈
{
2
,
5
,
10
}
k \in \{2,5,10\}
k∈{2,5,10}在训练数据上进行调优,在同一数据集上的所有实验采用相同的
k
k
k值。注意,当
k
=
1
k=1
k=1时,
A
A
A不包含边,而最终邻接矩阵
A
~
\tilde A
A~只包含自连接。在这种情况下,GCN将退化为正常的全连接网络,而MOGONET将退化为NN_VCDN。
虽然GCNs已经广泛应用于无监督59-62和半监督55-58学习中,但在本文中,我们进一步将GCNs的使用扩展到监督分类任务中。对于训练数据
X
t
r
∈
R
t
r
×
d
X_{tr} \in \mathbb{R}^{tr \times d}
Xtr∈Rtr×d,可以从式(2)中计算出相应的邻接矩阵
A
~
t
r
2
∈
R
n
t
r
×
n
t
r
\tilde A_{tr} 2\in R^{n_{tr}\times n_{tr}}
A~tr2∈Rntr×ntr。然后,可以用
X
t
r
X_{tr}
Xtr和
A
~
t
r
\tilde A_{tr}
A~tr训练一个图卷积网络
G
C
N
(
⋅
)
GCN(⋅)
GCN(⋅),对训练数据的预测可以写为:
Y
^
t
r
=
G
C
N
(
X
t
r
,
A
~
t
r
)
\hat Y_{tr} = GCN(X_{tr}, \tilde A_{tr})
Y^tr=GCN(Xtr,A~tr)
其中
Y
^
t
r
∈
R
n
t
r
×
c
\hat Y_{tr} \in \mathbb{R}^{n_{tr} \times c}
Y^tr∈Rntr×c.
Y
^
t
r
\hat Y_{tr}
Y^tr中的第
i
i
i行表示第
i
i
i个训练样本的预测标签概率,
c
c
c表示分类任务中的类数。因此,在学习分类任务时,需要同时利用训练数据的特征和几何结构。
对于一个新的测试样本 X t e ∈ R d X_{te} \in \mathbb{R}^d Xte∈Rd,我们将数据矩阵扩展到 X t r t e = [ X t r X t e ] ∈ R ( n t r + 1 ) × d X_{trte} = \begin{bmatrix} X_{tr} \\ X_{te} \end{bmatrix} \in \mathbb{R}^{(n_{tr}+1) \times d } Xtrte=[XtrXte]∈R(ntr+1)×d,根据Eq.(2)生成扩展邻接矩阵 A ~ t r t e ∈ R ( n t r + 1 ) × ( n t r + 1 ) \tilde A_{trte} \in \mathbb{R}^{(n_{tr}+1) \times (n_{tr}+1)} A~trte∈R(ntr+1)×(ntr+1)。其中, A ~ t r t e \tilde A_{trte} A~trte的最后一行和最后一列的条目是测试时计算的唯一条目,以反映测试样本 X t e X_{te} Xte与训练样本 X t r X_{tr} Xtr之间的亲和性。因此,给定 X t r t e X_{trte} Xtrte、 A ^ t r t e \hat A_{trte} A^trte和训练好的GCN模型 G C N ( ⋅ ) GCN(⋅) GCN(⋅),我们有 Y ^ t r t e = G C N ( X t r t e , A ~ t r t e ) ∈ R ( n t r + 1 ) × c \hat Y_{trte} = GCN(X_{trte}, \tilde A_{trte}) \in \mathbb{R}^{(n_{tr}+1) \times c} Y^trte=GCN(Xtrte,A~trte)∈R(ntr+1)×c.测试样本的预测标签概率分布为 1111 c h e t a k 1111chetak 1111chetak,即 Y ^ t r t e \hat Y_{trte} Y^trte的最后一行。为此,利用测试样本的特征以及测试样本与训练样本之间的相关性来预测新的测试样本 X t e X_{te} Xte的标签。
在MOGONET中,为了执行特定于组学的分类,我们为每个组学数据类型构建了多层GCN。具体而言,对于第
i
i
i组学数据类型,使用训练数据
X
t
r
(
i
)
∈
R
n
t
r
×
d
i
X_{tr}^{(i)} \in \mathbb{R}^{{n_{tr}}\times d_{i}}
Xtr(i)∈Rntr×di和相应的邻接矩阵
A
~
t
r
(
i
)
∈
R
n
t
r
×
n
t
r
\tilde A_{tr}^{(i)} \in \mathbb{R}^{n_{tr} \times n_{tr}}
A~tr(i)∈Rntr×ntr训练特定于组学的图卷积网络 GCNi(⋅)。对训练数据的预测可以写成:
Y
^
t
r
(
i
)
=
G
C
N
i
(
X
t
r
i
,
A
^
t
r
(
i
)
)
\hat Y^{(i)}_{tr}=GCN_i(X^{i}_{tr}, \hat A^{(i)}_{tr})
Y^tr(i)=GCNi(Xtri,A^tr(i))
其中
Y
^
t
r
(
i
)
∈
R
n
t
r
×
c
\hat Y^{(i)}_{tr} \in R^{{n_{tr}} \times c}
Y^tr(i)∈Rntr×c.我们使用
y
^
j
(
i
)
∈
R
c
\hat y^{(i)}_j \in \mathbb{R}^c
y^j(i)∈Rc表示$\hat Y^{(i)}_{tr}
中的第
中的第
中的第j
行,这是来自第
行,这是来自第
行,这是来自第i
组学数据类型的第
组学数据类型的第
组学数据类型的第j
个训练样本的预测标签分布。因此,
个训练样本的预测标签分布。因此,
个训练样本的预测标签分布。因此,GCNi(⋅)$的损失函数可以写成:
L
G
C
N
(
i
)
=
∑
j
=
1
n
t
r
L
C
E
(
y
^
j
(
i
)
,
y
j
)
=
∑
j
=
1
n
t
r
−
l
o
g
(
e
y
^
(
i
)
×
y
j
∑
k
e
y
^
j
,
k
(
i
)
)
=
∑
j
=
1
n
t
r
−
l
o
g
(
e
y
^
(
i
)
×
y
j
∑
k
e
y
^
j
,
k
(
i
)
)
L^{(i)}_{GCN} = \sum _{j=1}^{n_{tr}} L_{CE}{(\hat y^{(i)}_j, yj)}=\sum_{j=1}^{n_{tr}} - log(\frac{e ^ {\hat y^{(i)} \times y_j}}{\sum_ke ^ {\hat y^{(i)}_{j,k}}})=\sum_{j=1}^{n_{tr}} - log(\frac{e ^ {\hat y^{(i)} \times y_j}}{\sum_ke ^ {\hat y^{(i)}_{j,k}}})
LGCN(i)=j=1∑ntrLCE(y^j(i),yj)=j=1∑ntr−log(∑key^j,k(i)ey^(i)×yj)=j=1∑ntr−log(∑key^j,k(i)ey^(i)×yj)
式中
L
C
E
(
⋅
)
L_{CE}(⋅)
LCE(⋅)为交叉熵损失函数。
y
j
∈
R
c
y_j \in \mathbb{R}_c
yj∈Rc是第
j
j
j个训练样本的单热编码标签,
y
^
j
,
k
(
i
)
\hat y^{(i)}_{j,k}
y^j,k(i)是向量
y
^
j
(
i
)
\hat y^{(i)}_{j}
y^j(i)中的第k个元素。此外,为了考虑训练数据中的标签不平衡,我们进一步在Eq.(7)中对不同类的损失应用不同的权重,其中将类的权重设置为其在训练数据中的频率的反比。
6.4 多组学集成的VCDN
利用多视图数据进行生物医学分类任务的现有方法要么直接连接来自不同视图的特征,要么通过学习每个视图的权重或在低级特征空间中融合来自不同视图的特征来学习融合数据4,63 - 65。然而,如何在不造成负面影响的情况下将各种观点正确地结合起来,始终是一项挑战。另一方面,VCDN23可以利用标签空间中更高层次的跨组学相关性,因为不同类型的组学数据可以提供独特的类水平独特性。VCDN旨在学习标签空间中更高层次的视图内和视图间相关性,并在人类动作识别任务中显示出显着的改进。在MOGONET中,我们利用VCDN整合不同的组学数据类型进行分类。此外,虽然VCDN的原始形式是为具有两种视图的样本设计的23,但我们进一步将其一般化以适应任意数量的数据类型,并使用三种类型的组学数据进行演示: mRNA表达、DNA甲基化和miRNA表达。
由于我们的实验中使用了mRNA表达数据、DNA甲基化数据和miRNA表达数据,为了简单起见,我们首先演示了如何扩展VCDN以适应三种视图。对于不同组学数据类型的第
j
j
j个样本的预测标签分布
y
^
j
(
i
)
,
i
=
1
,
2
,
3
\hat y^{(i)}_j, i = 1,2, 3
y^j(i),i=1,2,3, 我们构造一个跨组学发现张量(cross-omics discovery tensor )
C
j
∈
R
c
×
c
×
c
C_j \in R^{c \times c \times c}
Cj∈Rc×c×c,其中Cj的每一项计算为:
C
j
,
a
1
a
2
a
3
=
y
^
j
,
a
1
(
1
)
y
^
j
,
a
2
(
2
)
y
^
j
,
a
3
(
3
)
C_{j,a_1a_2a_3} = \hat y^{(1)}_{j,a_1}\hat y^{(2)}_{j,a_2}\hat y^{(3)}_{j,a_3}
Cj,a1a2a3=y^j,a1(1)y^j,a2(2)y^j,a3(3)
其中
y
^
j
,
a
(
i
)
\hat y^{(i)}_{j,a}
y^j,a(i)表示
y
^
j
(
i
)
\hat y^{(i)}_j
y^j(i)的第
a
a
a项。
然后,将得到的张量
C
j
C_j
Cj重构为
c
3
c^3
c3维向量
C
j
C_j
Cj,转发给
V
C
D
N
(
⋅
)
VCDN(⋅)
VCDN(⋅)进行最终预测。
V
C
D
N
(
⋅
)
VCDN(⋅)
VCDN(⋅)设计为输出维数为
c
c
c的全连接网络,
V
C
D
N
(
⋅
)
VCDN(⋅)
VCDN(⋅)的损失函数可表示为:
L
V
C
D
N
=
∑
j
=
1
n
t
r
L
C
E
(
V
C
D
N
(
c
j
)
,
y
j
)
L_{VCDN} = \sum^{n_{tr}}_{j=1} L_{CE}{(VCDN(c_j), y_j)}
LVCDN=j=1∑ntrLCE(VCDN(cj),yj)
为此,
V
C
D
N
(
⋅
)
VCDN(⋅)
VCDN(⋅)可以揭示潜在的跨视图标签相关性,有助于提高学习性能。通过利用
V
C
D
N
(
⋅
)
VCDN(⋅)
VCDN(⋅)整合不同类型组学数据的初始预测,MOGONET基于组学特异性预测和学习到的交叉组学标签相关知识进行最终预测。
可以以类似的方式将MOGONET扩展到不同数量的视图。对于具有
m
m
m组学数据类型的数据,
C
j
C_j
Cj中的每个元素可以计算为:
C
j
,
a
1
a
2
.
.
.
a
m
=
∏
i
=
1
m
y
^
j
,
a
(
i
)
i
,
a
i
=
1
,
2
,
.
.
.
,
m
C_{j,a_1a_2...a_m} = \prod^m_{i=1} \hat y^{(i)}_{j,a}i, a_i = 1,2,...,m
Cj,a1a2...am=i=1∏my^j,a(i)i,ai=1,2,...,m
然后,将得到的张量
C
j
C_j
Cj重塑为
c
m
c^m
cm维向量,
V
C
D
N
(
⋅
)
VCDN(⋅)
VCDN(⋅)的训练方法与Eq.(9)相同。
对于消融研究中的MOGONET_NN,每个组学数据类型的标签分布直接连接到一个更长的向量上,作为多组学集成网络
N
N
(
⋅
)
NN(⋅)
NN(⋅)的输入。
N
N
(
⋅
)
NN(⋅)
NN(⋅)的损失函数可以写成:
L
N
N
=
∑
j
=
1
n
t
r
L
C
E
(
N
N
(
N
N
(
c
j
′
)
,
y
j
)
=
∑
j
=
1
n
t
r
L
C
E
(
N
N
(
[
y
^
j
(
1
)
,
y
^
j
(
2
)
,
y
^
j
(
3
)
]
)
,
y
j
)
L_{NN} = \sum^{n_{tr}}_{j=1} L_{CE}( NN(NN( c'_j), yj) = \sum^{n_{tr}}_{j=1} L_{CE}{(NN([\hat y^{(1)}_{j}, \hat y^{(2)}_{j}, \hat y^{(3)}_{j}]), y_j)}
LNN=j=1∑ntrLCE(NN(NN(cj′),yj)=j=1∑ntrLCE(NN([y^j(1),y^j(2),y^j(3)]),yj)
其中
c
j
′
∈
R
3
c
c'_j \in \mathbb{R}^{3c}
cj′∈R3c是组学特异性GCNs输出的连接向量。在我们的实验中,
N
N
(
⋅
)
NN(⋅)
NN(⋅)与
V
C
D
N
(
⋅
)
VCDN(⋅)
VCDN(⋅)共享相同的层数,而输入数据的维数不同。
综上所述,在我们使用三种组学数据类型的实验中,MOGONET的总损失函数可以写成:
L
=
∑
i
=
1
3
L
G
C
N
(
i
)
+
γ
L
V
C
D
N
L= \sum^3_{i=1} L^{(i)}_{GCN} +γL_{VCDN}
L=i=1∑3LGCN(i)+γLVCDN
其中
γ
γ
γ是组学特异性分类损失与VCDN最终分类损失之间的权衡参数。我们在所有实验中都设置
γ
=
1
γ = 1
γ=1。MOGONET是一个端到端模型,所有网络都是联合训练的。对于MOGONET的训练,我们首先单独预训练每个特定于组的GCN,以获得良好的GCN初始化。然后,在训练过程的一个历元中,我们首先对每个组学数据类型修复
V
C
D
N
(
⋅
)
VCDN(⋅)
VCDN(⋅)并更新
G
C
N
i
(
⋅
)
,
i
=
1
,
2
,
3
GCNi(⋅),i = 1,2,3
GCNi(⋅),i=1,2,3以最小化损失函数
L
L
L。然后我们固定组学特定的GCNs并更新VCDN(⋅)以最小化
L
L
L。组学特异性GCNs和VCDN交替更新,直到收敛。
6.5 用MOGONET识别重要的生物标志物
识别生物标志物对于解释结果和理解生物医学应用中的潜在生物学至关重要。多年来,人们对确定神经网络特征的重要性进行了广泛的研究。由于MOGONET的输入在预处理过程中被缩放到[0,1],我们可以通过将其设置为零来去除特征中的信号。因此,特征对分类任务的重要性可以通过特征被删除后的性能下降来衡量。这种消融方法在NN中被广泛用于特征重要性排序和特征选择2,66,67。使用这种方法,我们通过将特征赋值为零来分析每个特征在不同类型组学数据中的贡献,并计算与使用所有特征相比,测试集上的分类性能下降。性能下降最大的特性被认为是最重要的特性。我们使用F1分数来衡量二元分类任务的性能下降,使用F1_macro来衡量多类分类任务的性能下降。为了考虑训练过程中的随机性,我们在一个数据集中进行了五次重复实验,并通过总结重复实验中的性能下降来总结结果。由于每个组学数据类型在构建交叉组学发现张量时在MOGONET中具有相同的重要性,而在不同组学数据类型中预选用于训练的特征数量不同,因此我们进一步通过预选特征的数量来缩放每个组学数据类型的特征重要性。最后,我们对每个特性的重要性进行排序。