Title
题目
DeepProg: an ensemble of deep-learning and machine-learning models for prognosis prediction using multi-omics data
DeepProg:使用多组学数据的预后预测的深度学习和机器学习模型集成
01
文献速递介绍
大多数基于生存的分子签名都是基于单一类型的组学数据[1]。由于每种组学平台都有其特定的局限性和噪音,基于多组学的综合方法理论上可以产生更加连贯的签名。然而,与此方法相比,预测临床表型的研究探索较少,这是由于计算和实际挑战的结合。这些挑战包括平台特定的测量偏差、需要适当标准化的不同数据分布,以及由于高成本导致的具有多组学测量的样本量非常有限。
在多组学数据整合方法中,大多数方法没有将患者生存作为目标来建模;相反,与分子亚型相关的生存差异是以事后的方式评估的。此外,许多方法使用非监督的方法,不适用于预测新患者状态,如iCluster、相似性网络融合(SNF)、MAUI和多组学因子分析(MOFA+)等例子。iCluster是最早的方法之一,它使用概率建模将数据投影到较低的嵌入空间,以基于多组学特征将癌症样本聚类到不同的分子亚型[7]。相似性网络融合(SNF)算法是另一种流行的聚类方法,用于整合不同的组学特征,通过首先为每种组学构建一个独特的相似性网络,然后使用迭代程序融合网络,它已应用于多个TCGA癌症数据集。MAUI是一个用于多组学整合的非线性降维框架,使用变分自编码器产生潜在特征,这些特征可以用于聚类或分类。同样,MOFA+是一个使用因子分析通过标准矩阵分解来从多组学数据集中推断解释最多变异来源的潜在变量的统计框架。
识别疾病亚型在临床上非常重要。例如,通常认为特定器官的癌症有多个亚型。使用分子签名识别癌症亚型允许超越肿瘤阶段、等级或组织来源对肿瘤进行分类。共享相似的分子和途径变化的癌症亚型可以使用相同的药物治疗。其中一种亚型是基于预后签名对患者亚型进行生存分层。一旦推断出来,它们的签名可以作为后续治疗或预后研究的起点。此外,与患者生存相关的分子差异有助于理解肿瘤进展的机制。获得的知识不仅有助于改善疾病监测和管理,还提供了预防和治疗的信息。
Abstract
摘要
Multi-omics data are good resources for prognosis and survival prediction; however, these are difficult to integrate computationally. We introduce DeepProg, a novel ensemble framework of deep-learning and machine-learning approaches that robustly predicts patient survival subtypes using multi-omics data. It identifies two optimal survival subtypes in most cancers and yields significantly better risk-stratification than other multi-omics integration
methods. DeepProg is highly predictive, exemplified by two liver cancer (C-index 0.73–0.80) and five breast cancer datasets (C-index 0.68–0.73). Pan-cancer analysis associates common genomic signatures in poor survival subtypes with extracellular matrix modeling, immune deregulation, and mitosis processes.
多组学数据是预后和生存预测的良好资源;然而,这些数据在计算上难以整合。我们引入了DeepProg,一个新型的集成框架,它采用深度学习和机器学习方法,能够稳健地预测使用多组学数据的患者生存亚型。它在大多数癌症中识别出两种最优生存亚型,并且比其他多组学整合方法提供了显著更好的风险分层。DeepProg具有高度的预测性,通过两个肝癌(C指数0.73–0.80)和五个乳腺癌数据集(C指数0.68–0.73)的例子加以证明。全癌症分析将在不良生存亚型中常见的基因组特征与细胞外基质建模、免疫调控失调和有丝分裂过程关联起来。
Results
结果
DeepProg is a general hybrid and flexible computational framework to predict patient survival based on one or more omics data types, such as mRNA transcriptomics, DNA m