代码地址:https://github.com/AmateurAntCode/scSAMAC-cluster.git
摘要
单细胞测序技术使研究人员能够在细胞层面研究细胞异质性。为了便于下游分析,将单细胞数据聚类为不同子群是至关重要的。然而,该类数据存在高维度、稀疏性以及掉落事件(dropout),使得聚类任务极具挑战性。目前,已有多种深度学习方法被提出,然而,它们要么未能充分利用相似细胞之间的成对距离信息,要么未能有效捕捉其特征之间的相关性,同时也难以处理高维稀疏数据。因此,这些方法并不适合高保真度的聚类,导致难以获得清晰的细胞类型划分,进而影响下游分析的效果。
为此,本文提出了 scSAMAC 方法,它将对比学习与负二项分布损失函数结合到变分自编码器(VAE)框架中,通过对比单元相似性提取特征,同时保留数据的内在特征,从而增强聚类过程中的鲁棒性与泛化能力。在对比学习部分,方法构建了一个掩码模块,采用带有基因特征显著性调整的负样本生成策略,选择对聚类阶段影响较大的特征,并模拟数据缺失事件。此外,本文还设计了一种新颖的损失函数,结合了软K均值损失、Wasserstein距离以及对比损失,从而更全面地利用数据信息,提升聚类性能。
此外,方法在变分自编码器的每一层潜变量上引入了多头注意力机制模块,以增强特征之间的关联性、融合性以及信息修复能力。实验结果表明,scSAMAC 在多个先进聚类方法中表现优越。
引言
基因的转录活性可以解释单个细胞的独特身份和生物功能。传统的群体基因表达分析方法仅测量大量细胞的平均转录水平,忽视了单细胞之间的异质性。单细胞测序技术的快速发展弥补了这一差距。单细胞测序可以提供每个细胞的转录组表达图谱,这对识别细胞类型、研究复杂生物系统以及探索复杂疾病具有重要意义。
聚类作为一种无监督学习方法,通过不同的距离度量评估样本间的相似性,是单细胞RNA测序(scRNA-seq)数据分析的基本手段。然而,scRNA-seq 数据的高维度、稀疏性和噪声事件使得单细胞聚类过程极具挑战性,因此,开发高精度的细胞聚类模型势在必行。
在过去十年中,已经提出了大量 scRNA-seq 聚类方法。例如,SIMLR 基于样本间的相似性使用谱聚类;主成分分析(PCA)对原始高维数据降维以实现聚类;Seurat 使用 Louvain 算法在共享近邻图上识别聚类;ScHFC 是一种通过自然计算优化的混合模糊模型,结合了模糊 C 均值和 Gath–Geva 算法以提升聚类性能。
尽管这些方法在一定程度上提升了聚类效果,但随着技术的发展,其局限性也日益显现。现有方法的聚类性能已难以满足日益提高的标准,这些新标准要求方法在多个评估指标上具有更强的适应性和可扩展性。噪声和稀疏性是单细胞数据的普遍问题,因此聚类方法必须对这些特性具有更强的鲁棒性。例如,一些算法先对原始数据进行降维,这可能导致关键信息的丢失。同时,当面对成千上万个细胞和基因时,这些方法通常计算开销巨大,限制了其可扩展性,影响了下游分析。
随着深度学习的兴起,scRNA-seq 数据聚类方法也变得更加多样化。自编码器是一种经典的深度神经网络模型,其设计包含一个编码器将高维输入压缩到低维潜在子空间,并通过解码器重构数据。为了从潜在空间中提取更有效的特征,研究人员发展出多种扩展模型,如去噪自编码器(DAE)和变分自编码器(VAE)。自编码器能够从原始数据中学习判别性特征,也被广泛应用于 scRNA-seq 聚类任务中。例如,Tian 等人提出了基于 DAE 的聚类框架 scDeepCluster,它使用基于零膨胀负二项分布(ZINB