摘要
单细胞RNA测序(scRNA-seq)能够以单细胞分辨率精确识别组织中包含的细胞类型。然而,利用scRNA-seq数据识别不平衡细胞类型的研究仍然具有挑战性。本文提出了一种名为scCO2的方法,该方法基于加权非负矩阵三分解(NMTF),结合基于K-means的共识聚类,用于scRNA-seq数据的协同聚类。与几种流行方法在六个已知细胞类型的真实scRNA-seq数据集上的对比结果显示,scCO2在细胞聚类性能上可以达到与现有方法相当或更优的效果。
通过对一个人类胰腺真实scRNA-seq数据集的案例研究,scCO2在基因聚类与细胞聚类之间能够获得良好的对应关系。此外,scCO2还展现出了识别稀有细胞类型的能力。进一步地,通过将基因聚类得到的基因集合与已知标志基因进行比较,我们验证了scCO2具有发现更多潜在细胞类型特异性基因的潜力,同时,scCO2学习得到的基因权重也可以作为基因重要性的指标。
引言
复杂的生物组织具有异质性。肿瘤微环境(主要由癌细胞、基质细胞、成纤维细胞、内皮细胞和免疫细胞等组成)就是复杂组织系统的典型代表。单细胞RNA测序(scRNA-seq)的出现,使得可以在组织中对单个细胞的基因表达水平进行测量,从而有效识别组织中的细胞类型。与之对应,各类无监督聚类方法迅速发展,以从scRNA-seq数据中识别细胞群体。然而,由于scRNA-seq数据具有稀疏性、高维性和高噪声特性,准确识别复杂组织中的细胞类型仍然是一个挑战。尤其是在细胞类型分布不均衡时,稀有细胞类型的检测尤为困难。然而,这些稀有细胞类型在生物体发育和疾病进展中发挥着关键作用。因此,同时准确识别scRNA-seq数据中的常见和稀有细胞类型,是一个亟需解决的问题。
目前,常用的无监督细胞类型识别方法主要包括以下几类:基于K-means的方法、基于层次聚类的方法、基于密度的方法,以及基于社区检测的方法。同时,由于scRNA-seq数据在测序过程中普遍存在掉零(dropout)事件和批次效应(batch effect),使得数据噪声较高。虽然基本的聚类方法(如K-means或层次聚类)可以直接用于scRNA-seq数据的聚类,但为了缓解高噪声问题,已经发展出了大量针对scRNA-seq数据设计的改进方法。例如,CIDR方法首先对基因表达矩阵中的零值进行填补,以缓解数据的稀疏性,随后执行主成分分析(PCA)和层次聚类;SC3则是一种广泛应用于scRNA-seq数据的共识聚类方法;而sigDGCNb则是结合深度图卷积网络(GCN)与自监督机制的一种新兴深度学习方法。
此外,大多数现有聚类方法在识别常见细胞类型方面表现较好,而对稀有细胞类型的识别能力较弱。为此,一些专门针对稀有细胞类型识别的聚类方法被提出。例如,GiniClust通过基于Gini系数筛选稀有细胞类型的差异表达基因,并结合噪声DBSCAN模型