Wang, J., Ma, A., Chang, Y. et al. scGNN is a novel graph neural network framework for single-cell RNA-Seq analyses. Nat Commun 12, 1882 (2021).
论文地址:https://doi.org/10.1038/s41467-021-22197-x
代码地址:https://github.com/juexinwang/scGNN
摘要
单细胞RNA测序(scRNA-Seq)被广泛用于揭示组织、有机体以及复杂疾病的异质性和动态特征,但其分析仍面临多个重大挑战,包括测序稀疏性和基因表达中的复杂差异模式。我们引入了scGNN(单细胞图神经网络),为scRNA-Seq分析提供了一个无假设的深度学习框架。该框架通过图神经网络构建和聚合细胞间关系,并使用左截断高斯混合模型来模拟异质基因表达模式。scGNN集成了三种迭代多模态自动编码器,在四个基准scRNA-Seq数据集上的基因插补和细胞聚类任务中优于现有工具。在一项涉及来自死亡后脑组织的13,214个单细胞核的阿尔茨海默病研究中,scGNN成功展示了与疾病相关的神经发育和差异机制。scGNN为基因表达和细胞关系提供了有效的表示,是一个可用于一般scRNA-Seq分析的强大框架。
引言
单细胞RNA测序(scRNA-seq)技术能够在单个细胞中测量转录组范围内的基因表达,这对于识别细胞类型的聚类、推断细胞群体根据轨迹拓扑的排列,以及在复杂疾病中突出体细胞克隆结构并表征细胞异质性至关重要。然而,由于数据分布复杂且不确定、数据量大、以及掉落事件频率高,scRNA-seq分析用于生物学推断仍然具有挑战性。一些之前的方法,如Phenograph、MAGIC和Seurat,使用k-最近邻(KNN)图来建模细胞间关系。然而,这种图表示可能过于简化整体细胞群体中复杂的细胞和基因关系。
最近,新兴的图神经网络(GNN)通过在深度学习架构中传播邻居信息来解卷图中节点关系。与用于scRNA-Seq分析的其他自动编码器相比,通过重建自身输入来揭示scRNA-Seq数据的有效表示,图自动编码器的独特之处在于能够从整体图的角度学习图拓扑的低维表示,并训练节点关系。
我们引入了多模态框架scGNN(单细胞图神经网络),用于从scRNA-Seq数据中建模异质的细胞间关系及其底层复杂的基因表达模式。scGNN通过基于基因表达和转录调控信息的拓扑抽象训练低维特征向量(即嵌入),来表示细胞间的关系。scGNN具有以下三大独特特性:
1. scGNN利用图神经网络结合多模态自动编码器构建和聚合细胞间关系,提供了一个无假设的框架来推导生物学上有意义的关系,无需假设任何统计分布或基因表达数据的关系及掉落事件。
2. 在构建细胞图时,scGNN使用左截断混合高斯(LTMG)模型对scRNA-Seq数据进行建模,从而提高嵌入生物学有意义信息的信噪比。
3. 自底向上地从动态修剪的GNN细胞图中构建细胞关系。整个图可以通过在图中所有节点的学习嵌入上进行池化来表示,且图嵌入作为低维特征可抵抗噪声,保留细胞图中的拓扑关系。这些细胞间关系被用作自动编码器训练中的正则项来恢复基因表达值。
scGNN在捕获细胞间关系方面展现出极大的潜力,包括细胞类型聚类、细胞轨迹推断、细胞谱系形成及状态转换。本文主要集中探讨其在基因插补和细胞聚类这两个基础方面的应用潜力。基因插补旨在解决scRNA-Seq数据中普遍存在的掉落问题,即大量活跃基因的表达值被标记为零。现有的插补方法,如MAGIC和SAVER,存在产生基因表达偏倚估计的问题,容易导致假阳性及偏倚的基因相关性,从而可能消除一些有意义的生物变异。
在细胞关系方面,许多研究(包括Seurat和Phenograph