摘要
单细胞RNA测序(scRNA-seq)数据分析对于理解细胞异质性具有关键意义。然而,scRNA-seq数据固有的高稀疏性和复杂噪声模式对传统聚类方法提出了严峻挑战。为应对这些问题,我们提出了一种深度聚类方法——注意力增强的结构化深度嵌入图聚类(scASDC),该方法融合了多个先进模块,以提升聚类的准确性与鲁棒性。
本文方法采用多层图卷积网络(GCN),以捕捉细胞之间的高阶结构关系,构成图自编码器模块。为缓解GCN中常见的过平滑问题,引入了基于ZINB(零膨胀负二项分布)的自编码器模块,从数据中提取内容信息,并学习基因表达的潜在表示。这些模块通过注意力融合机制进行集成,确保在GCN的每一层中能够有效结合基因表达特征与结构信息。
此外,还引入了自监督学习模块,以增强所学习嵌入表示的鲁棒性。大量实验结果表明,scASDC在聚类任务中优于现有的多种先进方法,提供了一种稳健而有效的单细胞聚类解决方案。
该方法为更精确、具有生物意义的单细胞RNA测序数据分析提供了新途径,有助于深入理解细胞异质性及其相关生物过程。
引言
细胞聚类是单细胞RNA测序(scRNA-seq)数据分析中最关键的任务之一 [1,2]。然而,由于测序技术的限制,scRNA-seq数据通常表现出高稀疏性和复杂的噪声模式 [3,4]。传统的聚类方法(如k-means和层次聚类)[5–7] 依赖相似度度量,对于存在上述挑战的单细胞数据聚类任务而言,往往难以达到理想效果。
为更好地捕捉scRNA-seq数据的独特特性,近年来,基于深度学习的聚类算法应运而生并被广泛应用 [8],典型代表包括DESC [9]、scDCC [10] 和 scDeepCluster [11]。这些方法通常借助自编码器学习数据的低维表示,从而有助于聚类与分布建模。然而,它们多数集中于基因表达信息,常忽视细胞之间的关系,即数据中的结构信息。在高度稀疏和噪声背景下,若仅依赖基因表达进行聚类