聚类技术---复杂网络社团检测_单细胞RNAseq数据的无监督聚类面临的挑战

单细胞RNA-seq

数据的无监督聚类面临的挑战 b5d43cb50c81c513ba3ec24f0252f133.gif

摘要:单细胞RNA测序(scRNA-seq)技术的发展使研究人员能够获得大量单细胞转录组的数据。无监督聚类(Unsupervised clustering)

是分析这些数据的重要方法之一,用于识别假定的细胞类型。然而,聚类仍然存在许多挑战。本文从计算和数据特性的角度讨论了为什么聚类是一个具有挑战性的问题。同时,本文也讨论了这些数据与已识别的聚类进行生物学注释和解释所存在的困难。

b5d43cb50c81c513ba3ec24f0252f133.gif

细胞是生物体基本的结构和功能单位。几个世纪以来,生物学家已经知道多细胞生物是指由多个不同的细胞类型组成的生物体。但是细胞类型的概念并没有统一的严格定义。使用显微镜可以根据观察到的细胞的大小和形状来区分细胞,细胞的物理外形是确定细胞类型的传统方法。随着分子生物学的发展,根据表面蛋白的存在与否来确定细胞类型成为可能。然而,表面蛋白只代表蛋白质组的一小部分,重要的差异很可能并没有在细胞膜上表现出来。

微流体学的发展与RNA分离扩增方法的改进,使得高通量的单细胞研究成为可能,现在可以使用二代测序技术来分析单个细胞的转录组。近年来,技术的发展以惊人的速度前进。第一个单细胞RNA测序(scRNA-seq)实验发表于2009年,作者只分析了8个细胞。仅仅7年后,10X基因组公司发布了130多万个细胞的数据集。如今,大量涌现的scRNA-seq数据可以提供样本中细胞的详细分类。

研究人员能够充分利用这些丰富的数据集的前提是高效的计算方法。scRNA-seq数据计算分析的主要步骤包括质量控制、映射、量化、标准化,聚类,寻找轨迹和识别差异基因(Fig.1)。上游的聚类分析对于结果有重大影响,而且每一步都有许多可用的软件,有一些软件包实现了整个聚类工作流程,如Seurat、scanpy和SINCERA。感兴趣的话,还可以查阅关于这个工作流的概述,因为本篇综述只关注聚类。聚类是基于转录组相似性定义细胞类型的关键步骤,因此必须仔细考虑计算和生物学两个方面。

635154c31d7af004a719f205f93dc96f.png

图1 用于scRNA-seq的示例数据分析工作流。

单细胞RNA测序(scRNA-seq)数据计算分析流程图,以实现无监督聚类。首先,通过质量控制去除不可靠的细胞(和可能的双重细胞)。然后对清理后的数据集进行规范化,以纠正读取覆盖率和其他技术混淆方面的差异。特征选择和降维分别从背景噪声中分离出信息量最大的基因和最强的信号。然后在低维空间中计算细胞-细胞距离,用于构建细胞-细胞距离图,或直接通过聚类算法将细胞分配给集群。有些方法会在降维之前计算距离。

通过基于转录组相似性的无监督聚类来定义细胞类型已经成为scRNA seq最强大的应用之一。一般来说,聚类的目标是发现一组对象的自然分组。在转录组的基础上定义细胞类型十分有吸引力,因为它提供了一种由数据驱动的、一致的和无偏倚的方法,可以应用于任何样本。基于此,很多测序项目应运而生,最引人注目的是人类细胞图谱。这些图谱项目旨在为生物体或组织在不同发育阶段的所有细胞类型建立全面的参考资料。图谱除了提供对基础生物学的更深入的理解外,还可以为疾病研究提供参考。为了使细胞图谱具有实际用途,可靠的细胞无监督聚类方法将是计算的关键挑战之一。

      虽然在过去的几年中,聚类算法取得了相当大的进展,但仍有许多问题没有得到解答。在某种程度上,对于哪种方法最好,或者如何根据scRNA seq数据定义细胞类型,还没有达成共识。本文讨论了与聚类相关的生物学方面的问题。首先是聚类方法的类型以及使用时机。接下来概述了无监督聚类面临的困难,以及从实验和比较的角度需要考虑的问题。然后是聚类结果生物学解释的讨论。最后,探讨了聚类方法在未来几年的发展。

有哪些集群策略可用?

许多聚类算法是通用的,因为它们可以应用于任何类型的数据,前提是这些数据具有数据点之间距离的可度量性。由于在scRNA seq中检测到大量的基因,即高维度性,数据点(即细胞)之间的距离变得相似,这被称为“维度灾难”。因此,数据点之间距离的差异往往很小,不能可靠地识别细胞类型(图2)。应用特征选择和/或降维(图1)可以降低噪声并加快计算速度。特征选择的目标识别信息最丰富的基因,例如方差最大的基因。而降维如主成分分析(PCA)是将数据投射到较低的维度空间。随后,在低维的地方只使用选定的基因计算距离。计算距离有几种不同的方法,包括欧几里德距离,余弦相似度,皮尔森相关性和斯皮尔曼相关系数。除了欧几里德距离,其余三种度量方法的主要优点是标度不变性,即它们考虑了值的相对差异,对文库或细胞大小的差异分析更具有鲁棒性(robustness)。

  聚类方法多种多样(图3)。最常用的聚类算法是k均值(K-means)聚类算法(图3b),它迭代地识别k个聚类

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值