代码地址:GitHub - degiminnal/scMUG
摘要
单细胞RNA测序(scRNA-seq)通过提供单个细胞层面的基因表达数据,彻底改变了我们对细胞异质性的理解。与传统的整体RNA测序(bulk RNA-seq)不同,scRNA-seq能够识别给定组织中的不同细胞类型,从而实现对细胞功能的更细致认知。然而,scRNA-seq数据由于其稀疏性和高维度特征,分析过程面临诸多挑战。鉴于生物信息学在大数据分析及其对生命福祉的应用中扮演重要角色,它已被广泛用于scRNA-seq数据的分析。为应对这些挑战,我们提出了scMUG计算流程,该流程融合了基因功能模块信息,以增强scRNA-seq的聚类分析能力。该流程包括数据预处理、细胞表示生成、细胞间相似矩阵构建以及聚类分析。scMUG流程还引入了一种新颖的相似度度量方法,结合了潜在细胞表示空间中的局部密度与全局分布。据我们所知,这是首次将基因功能关联整合进scRNA-seq聚类分析中。我们收集了九个人类scRNA-seq数据集对scMUG流程进行了评估。在基因功能信息和新相似度度量的帮助下,scMUG的聚类结果深入揭示了基因表达模式与细胞异质性之间的功能关系。此外,scMUG流程的聚类性能与其他最先进方法相比表现相当甚至更优。
引言
单细胞RNA测序(scRNA-seq)已被广泛应用于揭示单细胞水平上的隐含基因表达模式[1–3]。传统的整体RNA测序(bulk RNA-seq)是在样本层面提取基因表达谱,本质上是对大量细胞基因表达计数的平均[4]。整体样本中不同细胞的基因表达在时间上并非同步,空间上也不一致[5]。因此,利用bulk RNA-seq数据准确分析细胞异质性存在困难[6]。scRNA-seq是一项革命性技术,使我们能够深入探究单细胞层面的基因表达[7,8]。它可以识别特定组织中不同类型的细胞,从而使我们对其生物学功能有更深刻、更精确的理解[9,10]。
基于scRNA-seq进行细胞类型注释是生物学和医学研究中的基础任务[11]。然而,使用传统计算方法对scRNA-seq数据进行细胞类型注释或发现依然较为困难[4]。scRNA-seq数据通常非常稀疏,零值比例常超过60%[12,13]。这些零值可能只是测序过程中的缺失值,并不代表基因完全沉默,这主要是由于scRNA-seq实验中的低捕获率造成的。此外,scRNA-seq数据通常是高维向量数据,且噪声较多。这些因素为基于计算方法分析scRNA-seq数据带来了重大挑战。
生物信息学是一个跨学科领域,在蛋白质定位测序、药物开发、基因功能、调控元件及功能区域识别等研究中发挥重要作用[14–16]。在这一新兴领域,我们利用计算工具、统计模型和算法对生物与健康科学中的大规模数据集进行分析和解读[17–20]。无监督机器学习算法,尤其是聚类算法,被广泛应用于scRNA-seq数据中不同细胞类型的注释和发现。传统聚类方法在scRNA-seq数据上的表现并不理想,因此研究者们通过多种方式对聚类算法进行了改进[21–24]。例如ÿ