论文阅读:scMGCA----结果分析及讨论

Yu, Z., Su, Y., Lu, Y. et al. Topological identification and interpretation for single-cell gene regulation elucidation across multiple platforms using scMGCA. Nat Commun 14, 400 (2023). https://doi.org/10.1038/s41467-023-36134-7

论文地址:Topological identification and interpretation for single-cell gene regulation elucidation across multiple platforms using scMGCA | Nature Communications

论文代码:https://github.com/Philyzh8/scMGCA


摘要

单细胞RNA测序提供了高通量的基因表达信息,使我们能够在单个细胞水平上探索细胞异质性。然而,在表征高通量基因表达数据时,面临着维度问题和掉落事件(dropout events)的挑战。为了解决这些问题,我们开发了一种用于单细胞数据分析的深度图学习方法—scMGCA。scMGCA基于图嵌入自编码器,能够同时学习细胞-细胞的拓扑结构表示和聚类分配。我们证明了scMGCA在细胞分离和批次效应校正方面具有高准确性和有效性,并在多个平台上超越了其他最先进的模型。此外,我们还对图嵌入自编码器的关键压缩转录组空间进行了基因组学解释,以展示其潜在的基因调控机制。我们在一个胰腺导管腺癌数据集上证明了scMGCA的有效性,该方法成功地为特定细胞类型提供了注释,并揭示了多个肿瘤相关和细胞信号通路中的差异基因表达水平。

引言

单细胞RNA测序(scRNA-Seq)允许研究转录组景观,是一种日益流行的平台,用于表征细胞异质性、发现复杂组织和疾病,并推断单细胞水平的细胞轨迹。近年来,许多计算模型已被开发出来,用于区分和注释细胞类型,从而实现高效的下游分析。然而,由于数据的高维性以及低捕获率和不足测序深度导致的掉落事件(dropout events)的高概率,这些计算模型往往面临各种挑战。迫切需要开发能够捕捉细胞之间关系并识别scRNA-seq数据中高概率掉落事件的有效计算模型。

作为一种无监督学习方法,聚类分析已经成为基于转录组数据定义细胞类型的关键步骤,并为下游分析奠定了基础。相应地,聚类方法近年来得到了很好的发展,例如,五个非常流行的工具包SC3、Seurat、SCANPY、SINCERA和SingleR已经被开发用于scRNA-seq数据的下游分析。SC3是一种使用基因过滤和PCA以及Laplacian变换的共识聚类算法。Seurat将scRNA-seq数据与原位RNA模式整合,以推断细胞位置和聚类,而SCANPY是一个与anndata共同构建的可扩展工具包,用于分析单细胞基因表达数据,二者都使用共享最近邻(SNN)模块优化和Leiden进行聚类。SINCERA在聚类前将数据转换为z-score,然后在层次结构中识别细胞类型。一般来说,这些算法为缺乏scRNA-seq先验知识的用户提供了快速的分析和展示。

尽管这些工具包提供了有价值的信息,但显然,当前的降维方法通常要么同时受到多种技术和生物学变异性的影响,要么忽略了数据的内在分布,导致潜在空间的过度拥挤,从而导致细胞聚类不准确。为了解决这些限制,深度嵌入聚类方法已成功开发出来,用于建模高维和稀疏的scRNA-seq数据;例如,深度计数自编码网络(DCA)使用基于负二项式损失的自编码器,带有或不带有零扩展,用于去噪scRNA-seq计数数据。在此基础上,scDeepCluster在自编码器中从零膨胀的负二项分布模型中同时学习特征表示和聚类。一年后,scDeepCluster被扩展为scDCC,在半监督的方式下利用领域知识。此外,还提出了其他深度嵌入模型,从不同的角度增强聚类结果,如DESC、scVI、scCAEs、scDHA和SCA。然而,这些深度嵌入聚类方法通常忽略了细胞拓扑信息和细胞群体之间的异质性。最近,新兴的图神经网络(GNNs)已被证明可以自然地建模异质性细胞-细胞关系和压缩潜在空间中的复杂基因表达模式。

基于这些发现的启发,我们提出了一种图卷积自编码器框架,称为scMGCA,用于分析scRNA-seq数据集。scMGCA采用图卷积网络(GCN)作为编码器,以提取scRNA-seq基因表达计数矩阵和细胞图的关键结构信息;它与基于多项式的解码器配对,以捕获数据的全局概率结构。然后,应用自优化嵌入聚类,通过采用Kullback-Leibler(KL)散度来聚类低维表示。此外,同时优化了包括聚类损失、基于多项式的损失和细胞图重建损失在内的三种训练损失,以发现细胞聚类标签分配并保护细胞-细胞拓扑表示。此外,为了构建细胞-细胞关系,我们提出了带有正点互信息(PPMI)矩阵和随机游走的细胞PPMI图,以聚合共现概率PPMI矩阵中的相邻细胞。我们通过将scMGCA与多个真实scRNA-seq数据集上的最先进聚类方法进行比较,评估其聚类性能,并揭示scMGCA在细胞分离和可视化方面优于这些scRNA-seq聚类方法。特别是,scMGCA还能够校正来自不同scRNA-seq协议的数据的批次效应。然后,我们分析了图嵌入自编码器中主要压缩转录空间的功能基因组学解释,以提供对scMGCA功能意义的稳健理解。为了进一步展示scMGCA在肿瘤疾病研究中的潜力,我们将其应用于胰腺导管腺癌(PDAC)数据集,并识别出阐明PDAC相关调控机制和PDAC细胞通信的细胞类型。

结论

scMGCA能够通过提供整个细胞图和计数矩阵的全局视图(如图1所示),从高维和稀疏的scRNA-seq数据中学习低维表示,从而有助于scRNA-seq数据的下游分析。它主要通过五个步骤来学习图嵌入表示。(1) 在归一化的单细胞基因表达矩阵上生成细胞-PPMI矩阵,以捕捉细胞-细胞的拓扑结构。(2) 我们建立了图卷积自编码器的框架,使用GCN整合表达矩阵和细胞图(细胞-PPMI),以提取主要的基因信息和细胞拓扑结构,并将其保存在潜在的嵌入表示中。(3) 通过多项式分布模拟单细胞数据的高概率掉落事件,并开发了基于多项式的解码器来表征多项式分布。(4) 在嵌入表示上执行基于Kullback-Leibler (KL)散度的自优化聚类任务,同时与图卷积自编码器中的损失函数一起训练。(5) scMGCA学习的潜在嵌入表示使得对单细胞数据的聚类、降维和可视化成为可能。此外,还可以解释基因的生物学意义,并发现疾病的调控机制

我们首先对scRNA-seq基因表达矩阵进行归一化处理,并选择高变异基因,然后构建表示归一化数据的细胞-细胞关系的细胞图。对于细胞图的构建,我们使用了基于KNN图的随机游走算法来聚合相邻细胞。直观地说,随机游走算法通过未加权的KNN图结构信息捕捉不同顶点之间的转移概率。随后,计算正点互信息(PPMI)矩阵,通过分配共现注意机制来描述相似的细胞,从而进一步增强细胞图。最后,该无向加权图可以输入模型。

在图卷积自编码器的框架下,scMGCA使用两层GCN有效地从scRNA-seq数据矩阵和细胞图中提取基因表达信息和细胞-细胞拓扑结构,然后将其保存在低维嵌入表示中。为了捕捉数据的全局概率结构,我们开发了一个基于多项式的解码器,用于表征scRNA-seq数据分布,并使用多项式分布模拟掉落事件。值得注意的是,近期研究表明单细胞计数矩阵主要遵循多项式分布,因此我们在此未使用零膨胀分布。此外,我们采用了内积解码器,以从低维表示中重建细胞图的内容和结构信息。

最后,我们对潜在表示进行Kullback-Leibler (KL)散度,以通过增强辅助目标分布来自优化聚类任务。然后,通过同时修正聚类损失、基于多项式的损失和细胞图重建损失,scMGCA可以通过训练整个图卷积自编码器来联合评估聚类标签分配和拓扑结构的特征学习,从而及时补偿模型偏离正确聚类分布的情况。之后,我们可以直接从最终优化结果中获得预测的聚类标签。特别是,我们从K-means和谱聚类中选择了最佳策略来初始化聚类中心,从而提高了整体模型的鲁棒聚类性能。除了显著的聚类性能外,scMGCA学习的低维潜在表示还提供了良好的原始数据降维和可视化效果。在应用方面,我们将权重矩阵的标准差排名转移到网络中,以筛选在潜在嵌入表示中具有生物学解释性的基因,为单细胞数据集提供新的标志基因。此外,scMGCA能够识别癌症数据集中的细胞类型,并探索疾病的调控机制。

scMGCA在多个平台上比其他单细胞聚类方法表现更好  


我们在20个真实的scRNA-seq数据集上,将scMGCA与其他12种单细胞聚类方法进行了比较,以评估scMGCA的聚类性能。这些基准方法分为三大类,分别是深度嵌入聚类方法(如scziDesk、scDeepCluster、DCA、DEC、DESC、scVI、scCAEs),深度图嵌入聚类方法(如scGNN、scGAE、GraphSCC)和基本的单细胞聚类方法(如Seurat、SHARP)。

这些数据集的细胞类型标签是真实存在的,我们使用了归一化互信息(NMI)、调整后的兰德指数(ARI)和平均轮廓宽度(ASW)作为聚类性能的评估指标(图2a和补充图1-2)。如图所示,在这20个数据集中,scMGCA分别在15个数据集上拥有最高的NMI、ARI和ASW值。总体而言,在这20个数据集中,scMGCA的平均NMI、ARI和ASW值分别达到了0.8304、0.8278和0.5827。排在scMGCA之后,scziDesk在NMI和ARI值上表现优异,而scVI在ASW值上表现出色。此外,我们还比较了不同数据平台上的方法的整体聚类表现(通过NMI、ARI和ASW),包括基于板片的平台、基于流式细胞仪的平台、Smart-Seq2、SMARTer、10X Genomics和Drop-seq。实验结果表明,scMGCA在多个平台上优于其他12种聚类算法,展示了scMGCA在多个平台上聚类的有效性和精确性。特别是,我们对比了优化后的深度学习方法,并将它们的最佳情况作为最终结果(补充表1-18)。

此外,我们使用UMAP将scMGCA和其他10种嵌入聚类方法的低维嵌入表示可视化为二维(图2b)。总体而言,scMGCA和scziDesk在‘Qx Limb Muscle’数据集上的细胞聚类表现优于其他方法,NMI结果证实了这一点。然而,scziDesk在骨骼肌细胞和巨噬细胞聚类中出现了一些混淆的聚类结果,而scMGCA成功地在‘Qx Limb Muscle’数据集中聚类了几乎所有细胞。这可能表明,scMGCA的潜在嵌入表示有效地保留了从scRNA-seq基因表达矩阵和细胞图中学习到的关键信息和数据分布。我们对所有数据集进行了UMAP可视化比较(补充图3-7)。

此外,为了探讨scMGCA是否能够检测到其他方法无法检测到的稀有细胞类型和小聚类,我们将scMGCA与其他深度学习方法(包括scziDesk、scDeepCluster、DCA、DEC、scGNN、scGAE和GraphSCC)在四个包含稀有细胞类型和小聚类的数据集(‘QS heart’、‘Muraro’、‘Qx limb Muscle’和‘Adam’)上进行了比较分析(补充说明3和补充图8)。

我们还比较了scMGCA与其他聚类算法的运行时间。对于测试数据集,我们采用了20个包含300至25,000个细胞的小规模数据集,以及一个包含70,118个细胞、来自20个器官和组织的大规模数据集‘Tabula Muris’。实验结果如图2c所示。值得注意的是,当聚类数据集包含超过25,000个细胞时,scMGCA将数据分成多个批次进行学习。图2c显示,传统方法(包括Seurat和SHARP)的运行时间始终快于所有深度学习方法。与其他基于GNN的方法相比,我们提出的模型可以提供较短的运行时间。我们还发现,scGAE无法在包含超过12k细胞的数据集上运行。我们观察到,由于使用了批量学习,scMGCA的运行时间曲线下降,并且在合理范围内(即全部低于1.5小时),适用于‘Tabula Muris’。为了探讨scMGCA的运行时间随着细胞数目和基因数目的变化,我们在‘Tabula Muris’上测试了不同细胞数目和基因数目的scMGCA的运行时间(补充图9)。可以观察到,scMGCA的运行时间随着细胞数目和基因数目的增加呈单调线性增长,展示了随着计算能力的提升,scMGCA的潜力。此外,scMGCA在‘Tabula Muris’上的聚类性能依然表现良好(图2d)。

最后,为了进一步展示scMGCA的可扩展性,我们将scMGCA应用于包含1,306,127个小鼠脑细胞的数据集(补充说明5和补充图10)。对于如此大的数据集,大多数比较算法在24小时内失败或没有产生结果。最终,只有scMGCA、DEC、DESC和传统方法能够成功运行。因此,我们比较了它们在不同细胞数量下的运行时间和内存使用情况(补充图11)。从实验结果可以看出,除去细胞图计算带来的额外时间和内存消耗,scMGCA与深度学习方法之间没有太大差异。此外,值得注意的是,在本文比较的几种图神经网络中,scMGCA是唯一能够成功运行的方法;它也可以被视为在大规模scRNA-seq数据集上深度图学习方法发展的进步。

scMGCA有效地执行了降维校正,并改进了scRNA-seq数据的可视化

 
降维和高通量数据的可视化一直是scRNA-seq数据聚类的主要目标,以便于下游分析和细胞类型的发现。在此,我们将scMGCA与其他三种降维方法进行了比较,分别是PCA、t-SNE和UMAP。我们采用了平均轮廓宽度(ASW)作为评估指标,该指标衡量了真实细胞标签与降维后的矩阵的匹配程度。ASW反映了相同细胞类型的聚集程度和不同细胞类型之间的分离程度,值接近1表示性能良好。由于t-SNE和UMAP的许多参数可以极大地影响二维嵌入结果,我们在更广泛的参数空间中将scMGCA与t-SNE和UMAP进行了比较,实验结果表明,scMGCA优于t-SNE和UMAP。随后,我们将t-SNE和UMAP的最佳结果与PCA和scMGCA进行了比较(图3a)。图3a显示,scMGCA在‘QS Trachea’和‘QS Heart’数据集上拥有最高的ASW,并且在降维校正和可视化的表现上显著优于其他比较方法。此外,在20个数据集上获得的整体平均ASW值远高于其他方法,如图3b所示。所有数据集的ASW值和可视化表现见补充图12-15。

我们还对scMGCA与两种最先进的单细胞转录组分析方法(SCANPY和Seurat)进行了全面比较,评估了它们的聚类性能、降维和可视化比较(图3c)。scMGCA基于图神经网络捕获的关键基因表达信息和拓扑结构执行降维校正和聚类。SCANPY和Seurat则使用PCA来降低基因表达矩阵的维度,然后在低维空间中进行聚类。SCANPY和Seurat中使用的功能和参数设置见补充说明8。我们使用UMAP嵌入散点图对这三种方法进行了评估,并在‘QS Limb Muscle’、‘QS Diaphram’和‘Qx Bladder’这三个数据集上将预测标签与真实标签进行了比较。在图3c中,我们可以明确地观察到,在降维校正和聚类性能方面,scMGCA的效果优于SCANPY和Seurat,且正确地分离了大多数细胞。具体而言,在‘QS Diaphram’数据集中,scMGCA比其他方法更好地识别了紧凑的间充质细胞和骨骼肌细胞聚类。在‘Qx Bladder’数据集中,scMGCA能够将尿路上皮细胞与混合膀胱细胞区分开来。为了进行全面分析,我们选择了五个评估指标(Davies-Bouldin、ASW、NMI、ARI和V-Measure)来评估这三种模型(图3d)。我们观察到scMGCA在三个数据集上的所有指标上均超过了SCANPY和Seurat,展示了scMGCA强大的聚类性能。所有数据集上的比较结果见补充图16-18。

scMGCA可以消除不同scRNA-seq协议中的人类胰腺数据的批次效应  


由于不同scRNA-seq协议之间存在强烈的批次差异,对由多个不同scRNA-seq协议生成的数据进行批次效应校正和聚类非常具有挑战性。为了研究由不同scRNA-seq协议生成的数据的批次效应,我们整合了四个公开可用的人类胰腺数据集,这些数据集分别由CEL-seq、CEL-seq2、Fluidigm C1和Smart-seq2生成。为了进行基准比较,我们选择了五种最先进的批次效应校正方法,包括DECS、Harmony、MNN、scVI和Scanorama。

在图4a中,我们可以看到scMGCA能够有效地合并来自不同scRNA-seq协议的数据集并消除批次效应。与其他批次效应校正方法相比,虽然DESC和Harmony都能大幅度完成批次效应校正,但它们不能均匀地混合所有细胞。scVI只能混合来自CEL-seq和CEL-seq2的数据集,但未能校正Fluidigm C1和Smart-seq2的数据。Scanorama未能消除Smart-seq2的批次效应,而MNN则完全分离了由四种scRNA-seq协议生成的数据。此外,图4a还显示,scMGCA能够有效地聚集同类细胞并分离不同类型的细胞。DESC也能够聚集大多数细胞,但除外β细胞,它们与α细胞、腺泡细胞和导管细胞混合在一起。Harmony混合了α细胞与腺泡细胞、δ细胞和β细胞。三种方法(MNN、scVI和Scanorama)未能有效分离不同的细胞类型,导致下游分析出现混淆。图4b中描绘的聚类性能比较也证实了这些发现。总体而言,scMGCA和DESC优于其他批次效应校正方法,而MNN、scVI和Scanorama在NMI、ARI和ASW这三个指标上表现较差。

为了探索scMGCA消除批次效应的过程,我们可视化了scMGCA在不同训练轮次下的潜在嵌入表示。如图4c所示,scMGCA能够聚集细胞并逐步混合由各种scRNA-seq协议生成的数据集。这表明scMGCA不仅能够准确地对细胞进行聚类,还能够同时校正具有强烈批次差异的多个数据集的批次效应。

超参数选择评估与消融研究  


我们评估了不同数量的细胞簇、传输步数、选择的基因数量以及多种簇中心初始化方法对scMGCA的影响,以及scMGCA在20个真实scRNA-seq数据集上的各个组件的有效性。

对于簇数量的影响,我们通过扰动簇数量来比较scMGCA的聚类性能,即我们将实验簇数量设置为{K−2, K−1, K, K+1, K+2},其中K为真实簇数量。图5a的热图显示,对于大多数数据集,当簇数量为真实数量时,能够获得更好的NMI值。簇数量较少的数据集,如“Qx Bladder”(K=4)、“QS Trachea”(K=4)和“QS Diaphragm”(K=5),受扰动的影响比其他数据集更大。原因可能是这些数据集包含的细胞群体较少且结构不稳定。总体上,scMGCA对簇数量不敏感。补充图19显示了ARI指标的热图。

图5b显示了scMGCA在不同传输步数(s)和不同选择基因数量(d)下的聚类性能。结果表明,与其他条件相比,当s=2且d=500时,scMGCA的整体聚类性能最佳。聚类中心的初始化对聚类过程至关重要,并会影响最终的聚类性能。由于scMGCA的聚类中心初始化方法基于kmeans和谱聚类的最优策略,我们在纯粹的kmeans、谱聚类或随机初始化方法的背景下进行了相关性分析(图5c)。我们观察到,kmeans和谱聚类模型与scMGCA的相关性确实比随机初始化方法更高。kmeans具有最高的相关性,这也意味着scMGCA在20个scRNA-seq数据集上选择了更多由kmeans初始化的聚类中心。此外,我们还详细说明了kmeans和谱聚类这两种初始化方法在什么条件下分别有效的原因(补充说明10和补充表22)。我们还详细分析了其他参数,包括损失函数的权重、细胞-PPMI图的参数、网络层数和不同的网络框架(补充说明11),以便为用户提供有效的指导。

我们对scMGCA进行了消融研究,以探讨细胞-PPMI图是否增强了传统的KNN图,以及多项式解码器是否比ZINB在建模单细胞数据分布方面更有效。具体来说,我们使用NMI(图5d)和ARI(补充图25)指标,比较了scMGCA、使用KNN图的scMGCA和使用ZINB解码器的scMGCA的聚类性能。实验结果表明,scMGCA在大多数数据集上具有最佳的聚类性能;去除细胞-PPMI图和多项式解码器会降低scMGCA的细胞聚类性能。特别是,我们进一步验证了细胞-PPMI图比KNN图更适合单细胞数据(补充说明12)。此外,我们还将scMGCA与其他聚类算法在缺失值校正中的性能进行了比较(补充说明13和补充图27-28)。从实验结果来看,scMGCA在大多数数据集上的NMI和ARI值略有下降,但它仍优于所有其他比较方法。这些实验结果证实了scMGCA在缺失值事件校正中具有足够的稳定性和鲁棒性,能够提供有前途的性能。

scMGCA 的潜在嵌入表征的功能基因组学可解释性


我们对scMGCA的潜在嵌入表征在‘Qx Limb Muscle’数据集上进行了功能基因组学可解释性分析,验证了它能够保留scRNA-seq基因表达数据的关键信息,因此具备功能基因组学解释能力。

首先,我们使用t-SNE算法在训练的不同阶段将潜在嵌入表征投影到二维空间并持续到训练结束(图6a)。结果显示,随着训练的进行,潜在表征上的细胞逐渐聚集在一起,细胞簇变得越来越明显,反映了潜在嵌入表征的训练和学习是有意义且有效的。此外,为了说明scMGCA的低维潜在表征保留了原始数据的细胞-细胞拓扑结构信息,我们计算了原始scRNA-seq数据与scMGCA、PCA、t-SNE和UMAP降维后的数据之间每对细胞的皮尔逊相关系数(图6b)。实验结果明显表明,scMGCA在‘Qx Limb Muscle’数据集上的潜在表征比PCA、t-SNE和UMAP更好地保留了细胞-细胞拓扑信息和原始数据结构(图6b)。

为了探索潜在嵌入表征的功能意义,我们使用标准差和潜在嵌入表征的权重选择了前200个高表达基因(具体选择策略见方法部分),然后进行了基因本体论(GO)富集分析,以检测基于基因相关的GO术语的富集功能属性(图6c)。GO术语主要富集在生物过程(BPs)中的中性粒细胞的趋化和迁移。中性粒细胞是先天免疫系统的前线细胞,在炎症和组织伤口愈合中起着重要作用。我们还进行了KEGG通路分析,以研究选定基因背后的分子通路(图6d)。我们观察到,选定基因最多的通路是细胞因子-细胞因子受体相互作用,这与GO富集分析结果中主要富集的细胞因子受体和配体活性分子功能(MF)相对应。肌肉细胞在运动过程中将细胞因子分泌到循环系统中,细胞因子产生的控制取决于各种局部和全身因素之间的相互作用。因此,KEGG和GO分析的结果表明,潜在嵌入表征中选择的基因对于循环系统中受体配体的结合至关重要。

此外,我们采用STRING构建了所选基因的PPI网络,并通过Cytoscape可视化了交互得分>0.7的网络结构(图6e)。特别是,采用分子复合物检测(MCODE)识别了最重要的模块。

在此基础上,为了探索选定基因中是否存在标志基因,我们使用‘Qx Limb Muscle’数据集的基因表达矩阵和scMGCA预测的簇标签,通过SCANPY分析了每个细胞簇中选定基因的表达水平。图6f展示了每个簇中前10个表达基因的堆叠小提琴图,我们提供了每个细胞簇中最上层基因的表达值详细分布(图6g)。我们发现许多选定基因作为细胞标志基因,例如B细胞的Bcr和T细胞的Pdcd1,这进一步证明了在潜在嵌入表征中选择的200个基因具有有意义的功能解释。此外,一些尚未被发现的基因可能作为生物学家的新细胞标志物;例如,Egr4在间充质细胞中的基因表达水平最高,但目前还没有足够的研究确定它是否实际上是一个细胞标志物,因此,Egr4可能代表这些细胞的标志基因。同样,Pmaip1可能是小鼠骨骼肌细胞的候选标志基因。此外,我们采用其他聚类方法并使用相同的方法提取功能基因与scMGCA进行比较(补充说明14和补充图29, 30)。从实验结果来看,scMGCA能够选择在每个细胞簇中高度表达的基因,而其他聚类算法似乎较为困惑或无法找到这些基因。scMGCA识别出更接近根据注释标签的差异表达基因。此外,我们还将scMGCA与SCANPY和Seurat进行了比较,发现scMGCA能够检测到标准方法未检测到的基因组特征(补充说明15和补充图31)。

最后,我们将由这200个可解释基因组成的基因表达矩阵应用于Monocle3算法,以分析时间序列‘Klein’和hESC数据集的发育轨迹(补充说明16和补充图32)。从补充图32可以观察到,原始数据无法很好地导致轨迹路径并揭示错误的细胞分化阶段,而由scMGCA选择的可解释基因推断的细胞轨迹与细胞分化的真实阶段密切相关。由scMGCA选择的可解释基因推断出的细胞和时间轨迹准确地跟踪了细胞分化的阶段,进一步证明了选择可解释基因的有效性。

scMGCA 阐明胰腺导管癌的潜在调控机制

我们将scMGCA应用于胰腺导管癌(PDAC)数据集,以展示其在单细胞分析中的能力。该数据集来自CRA001160中的一个原发性PDAC肿瘤和一个对照胰腺,包含总计57,530个细胞和18,008个基因。PDAC数据首先经过scMGCA的预处理和聚类(补充说明17),然后根据每个细胞簇中的标志基因进行细胞类型注释,如补充表23中所总结的。最终,我们识别出包括腺泡细胞、B细胞、1型导管细胞、2型导管细胞、内分泌细胞、内皮细胞、成纤维细胞、巨噬细胞、星状细胞和T细胞在内的10种细胞类型(图7a)。其中,2型导管细胞占最大比例,而内分泌细胞的比例最小。值得注意的是,2型导管细胞全部在肿瘤细胞中检测到,如图7b所示。随后,我们可视化了每个细胞簇中前10个差异基因的表达水平(图7c)。从热图中可以看出,差异基因在每个细胞簇中均有明确表达,证明了scMGCA在聚类和注释数据集方面的有效性。特别是,我们还使用RcisTarget检查这些基因中的转录因子(TF),并获得每个细胞簇中最高富集分数的DNA结合基序。进一步,我们详细解释了每个细胞簇的显著标志基因,包括其在所有细胞中的表达分布(图7d)及其在细胞簇之间的表达水平差异(图7e)。我们还对每个细胞簇的前10个基因进行了伪时间分析,并对4个簇进行了可视化(图7f)。我们看到,簇3和簇4的基因分别在伪时间过程的起始点和中点高度表达,而簇1和簇2的基因在终点高度表达。

接着,我们进行了通路富集分析(图7g)。在所有细胞类型中,胰腺分泌的富集分数最高;这与胰腺导管液体分泌失调是与PDAC相关的主要过程的事实一致。蛋白质和脂肪的消化吸收也是在PDAC中显著富集的过程,如其他PDAC研究所证实的。胰腺包含不同的细胞,这些细胞产生对消化非常重要的酶,包括消化蛋白质的胰蛋白酶和糜蛋白酶,以及分解脂肪的脂肪酶。因此,胰腺的异常将直接或间接影响蛋白质和脂肪的消化和吸收。此外,蛋白质消化和吸收已被报道与胰腺神经内分泌肿瘤的发展有关。其他通路,如自然杀伤细胞介导的细胞毒性和补体及凝血级联反应,也已在PDAC相关研究中得到证实。系统地,我们使用CellChat推断了scMGCA检测到的细胞-细胞通信。通过CellChat发现了多种信号通路,其中胰岛素信号通路的信号水平最高。由于高胰岛素血症引起的大量代谢紊乱,研究人员认为胰岛素信号在肿瘤中(包括PDAC)可能起着潜在的决定性作用。从图7h的胰岛素信号通路的细胞相互作用分层图中,我们观察到除了导管细胞外,内皮细胞、成纤维细胞、巨噬细胞和星状细胞中都有大量细胞作为胰岛素信号通路的来源。同时,几项研究确实表明这些细胞中的胰岛素信号通路在PDAC的进展中起着重要作用。

为了验证单细胞PDAC数据中识别出的信号通路是否具有临床相关性,我们采用TCGA数据库的侵袭性胰腺导管腺癌(PAAD)及其变体的公开数据进行了队列研究,以验证其一致性。具体而言,由于scMGCA识别的2型导管细胞全部来自肿瘤细胞,因此合理地推测2型导管细胞与肿瘤是相关的。在此基础上,我们分别对scMGCA识别的2型导管细胞和来自TCGA数据的178个肿瘤样本进行了GSVA富集,并进行了比较(补充图33)。可以观察到,从PAAD肿瘤样本中富集的通路与从scMGCA识别的2型导管细胞中富集的通路大多相同,并且这些通路本质上与PDAC相关。其中,共同富集的p53信号通路是PDAC中的重要通路。作为一个序列特异性转录因子,p53蛋白是主要的肿瘤抑制因子。在致癌压力下,p53被激活以诱导多种程序,包括细胞周期退出、凋亡和复制衰老,旨在限制恶性细胞增殖。除此之外,它还主要富集在与肿瘤相关的功能上,如糖酵解、蛋白质分泌和癌症通路,进一步支持了2型导管细胞的恶性状态。总之,实验结果表明,scMGCA对PDAC的分析结果可以通过另一个独立的队列研究进行验证,并且scMGCA能够阐明PDAC的潜在调控机制。

讨论

单细胞RNA测序(scRNA-seq)能够在单个细胞水平上对基因表达模式进行高通量测量,从而考虑细胞异质性。然而,从高维度且稀疏的测序数据中有效注释细胞类型仍然是人工智能甚至人类面临的挑战。因此,探索有效的细胞间拓扑结构的提取和传播是值得的。在本文中,我们提出了scMGCA以解决这些问题。具体而言,我们提出了细胞-PPMI图,通过随机漫游和共现概率PPMI矩阵来聚合相邻细胞,捕获关键的细胞间拓扑结构。其次,我们在图自编码器框架下采用图卷积网络(GCN)提取并整合基因表达信息和细胞拓扑结构,并在低维潜在嵌入表示中保留关键信息。第三,我们提出了一种基于多项式的解码器来解码潜在嵌入表示,并通过优化基于多项式的损失函数来训练网络。此步骤通过多项式分布模拟导致scRNA-seq数据稀疏的缺失事件,使整体模型始终遵循多峰分布进行学习。最后,我们提出了一种基于KL散度的自优化嵌入聚类方法,用于在低维表示上进行聚类,并在网络中同时优化聚类损失和其他损失函数。

为了证明scMGCA能够准确地对细胞进行聚类,我们将其与12种单细胞聚类方法进行了比较。实验结果表明,scMGCA在多个平台上的数据表现出最佳的聚类性能,并且优于其他12种比较方法,展示了scMGCA在实验室环境中的跨平台能力。特别是,scMGCA能够检测到其他方法无法捕获的一些稀有细胞类型和小簇。就模型的可扩展性而言,scMGCA能够在合理的时间和内存消耗下成功聚类130万个数据集,这可以看作是大规模数据集上深度图学习的进展。scMGCA还能够有效降低维度并可视化单细胞数据。在与三种降维方法和两种单细胞分析软件包的比较实验中,scMGCA在降维后获得的ASW(平均轮廓宽度)最高,并且可视化结果接近真实簇的分布。此外,scMGCA能够纠正由不同scRNA-seq协议生成的数据所产生的批次效应,优于其他最先进的批次效应校正方法。

同时,scMGCA提出了一种新的可解释性功能基因组学方法。我们提出了一种基于GCN编码器中参数矩阵标准差的排序和筛选方法,从scMGCA的潜在嵌入表示中选择200个高表达基因。通过对这些基因的功能分析,我们发现scMGCA的潜在嵌入表示在生物学上是可解释的,而不会对其细胞聚类性能产生重大影响。此外,scMGCA能够在每个细胞簇中发现显著表达的差异基因,这些基因是其他深度学习方法无法检测到的,并能在某些未被标准方法检测到的细胞簇中发现潜在的标志基因。这些实验结果不仅验证了scMGCA的潜在嵌入表示在生物学上的可解释性,还为深度图聚类探索生物学可解释性提供了一种新途径。

此外,scMGCA还能够阐明胰腺导管癌(PDAC)的潜在调控机制。我们将scMGCA应用于PDAC数据进行细胞聚类,并通过细胞簇中的标志基因定义了细胞类型。有趣的是,scMGCA识别的所有2型导管细胞均来源于肿瘤细胞。此外,我们发现2型导管细胞富集了几条与PDAC密切相关的通路,其中大多数与临床数据中的肿瘤样本富集的通路一致。这表明scMGCA能够阐明复杂疾病的潜在调控机制,并提供具有生物学意义的结果。

综上所述,scMGCA抛弃了传统的细胞图构建方式,通过图嵌入表示和多项式分布模拟对单细胞数据进行联合分析。作为一种针对单细胞生物学的新型图学习方法,scMGCA能够同时执行细胞聚类、降维、批次效应校正、百万级数据分析、可解释性分析以及与临床数据的单细胞数据分析,这在当前图神经网络领域中是罕见的。在未来的工作中,我们将继续改进和扩展scMGCA。


这篇文章提供了非常详实的实验分析,对于这个领域的数据分析来说值得学习!!!

下一篇博文将详细介绍scMGCA模型的具体实现方法。


  • 22
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值