Abstract
我们从计算的角度讨论为什么聚类是一个具有挑战性的问题
数据的哪些方面使它具有挑战性
与已识别种类的生物学解释和注释相关的困难
Introduction
微流体技术的进步使分离大量细胞成为可能,随着RNA分离和扩增方法的改进,现在可以利用下一代测序技术分析单个细胞的转录组。技术的发展速度惊人。
scRNA-seq数据的计算分析涉及几个步骤
- quality control
- mapping
- quantification
- normalization
- clustering
- finding trajectories
- identifying differentially expressed genes
scRNA-seq数据分析流
- quality control
- normalization
- feature selection
- dimensionality reduction
- cell-cell distance
- unsupervised clustering
通过基于转录组相似性的无监督聚类来定义细胞类型的能力已经成为scRNA-seq最强大的应用之一
- 在转录组的基础上定义细胞类型很有吸引力,因为它提供了一种数据驱动的、一致的、无偏见的方法,可以应用于任何样本
- 广义地说,聚类的目标是发现一组对象的自然分组
然而对于什么是最佳方法,或者如何根据scRNA seq数据定义细胞类型,目前还没有共识
-
在这篇综述中,主要讨论了与聚类相关的几个计算和生物学方面。
- 讨论可用聚类方法的类型,以及何时适合使用它们,
- 概述为什么无监督聚类是一个困难的问题,以及需要从实验和计算的角度考虑什么
- 挑战:结果的生物学解释和注释
- 讨论聚类方法在未来几年中可能如何发展。
What clustering strategies are available?
计算距离的方式
- 欧几里德距离(Euclidean distance)
- 余弦相似度(cosine similarity)
- 皮尔逊相关性(Pearson’s correlation)
- 斯皮尔曼相关性(Spearman’s correlation)
降维方法
- PCA
- SC3
- pcaReduce
scRNA-seq的聚类方法
-
k-means(最流行的)
-
标准方法:Lloyd‘s method
- 优点:随着点的数量现行扩展(可以用于大型数据集)
- 缺点:贪婪算法,无法获得全局最优解;它倾向于识别大小相等的集群
-
SC3
- 可以通过使用不同初始条件或上游处理重复应用k-means,并找到同类之间的共性来克服Lloyd’s method的缺陷(无法获得全局最优解)
-
RaceID
- 为k-means方法添加异常值检测功能来识别较少的细胞类型
-
SIMLR
- 通过同时训练自定义距离测量值来适应k-means
-
-
hierarchical clustering
-
标准方法:将单个细胞组合成更大的簇(凝聚的)或将簇分成更小的组(分裂的)
- 缺点:时间和内存需求至少与数据点的数量成二次关系,这意味着对大型数据集使用层次聚类的成本过高。
-
CIDR
- 通过在距离计算中添加隐式插补零,对scRNA-seq进行分层聚类,从而在低深度样本中提供更稳定的细胞-细胞距离估计。
-
backSPIN
-
pcaReduce
-
-
graph-based
-
方法
-
shared-nearest-neighbours graph
-
community-detection-based algorithm:Louvain algorithm
-
基本思想:构建一个k-nearest-neighbours graph;在构建单细胞图时,选择包含多少最近邻(用k表示)会影响最终簇的数量和大小。为了提高对异常值的鲁棒性,通常基于每对单元的共享最近邻对图进行重新加权
- 优点:大多数基于图形的方法不需要用户指定要识别的聚类数;运行速度快
-
-
-
工具
-
Seurat and scanpy
- 整合了上述两种方法
-
-
Discrete versus continuous cell grouping(主要通过一个例子说明)
clustering methods
- 大多数聚类方法的一个缺点是,无论是否存在任何具有生物学意义的组,它们都会对数据进行分区,因此如果数据中不存在离散的单元组,则聚类不是合适的方法。
manifold:pseudotime
Three challenges
Technical
-
由于从单个细胞获得的RNA初始量较低,scRNA-seq数据通常比来自体细胞群体的RNA-seq数据表现出更高的噪声水平和更多的零值(称为dropouts)。
-
零值
-
原因
- 1.转录本不存在,因此零是细胞状态的准确代表
- 2.其次,序列深度较低,尽管存在,但转录本未被报道
- 3.作为文库构建(library preparation)工作的一部分,转录本没有被捕获或没有被放大。
-
处理方法
-
推断适当的插补值
- 存在几种统计方法:它们都依赖于数据中预先存在的细胞-细胞或基因-基因相关性
-
-
-
其他噪声
-
例子
-
batch effect
-
批次效应是指由于实验因素引起的基因表达变化,例如,实验时间,实验地点,实验人员,以及实验使用的电泳……
- 避免批次效应的最佳策略是采用平衡的实验设计,以便在实验批次之间分割样本
- 但是对于容易腐样品就无法采取此策略
-
-
-
处理方法
-
noise models
- 通过向数据集添加模拟噪声并重新应用聚类工作流,这些可用于评估聚类的鲁棒性
-
密切注意样品的处理方式
-
-
-
Biological
-
短暂的生物状态可以掩盖潜在的细胞特性
- 例子:细胞周期阶段,在分化T细胞时会混淆细胞类型
- 解决:scLVM或cyclone等工具可以regress out细胞周期效应,并提供正确的转录组
- 困难:一个特定的标志是否应该被视为混杂因素并不总是清楚的。在癌症扩散中,信号在生物学上是相关的,并且可以与细胞类型识别相关,而不是掩盖它。同样,RNA总含量或细胞大小可能会混淆聚类分析,但在许多情况下可能反映细胞类型的真正差异
-
大多数组织的异质性带来了额外的挑战
-
例子:人类血液是研究最为深入的系统之一,研究表明,细胞类型的频率(cell-type frequency)至少跨越两个数量级,而且随着研究的深入,数量级仍在推高。
-
现象:在对更频繁的细胞类型进行聚类时,更好地区分稀有细胞类型的能力是以性能较差为代价的。
-
解决:分而治之的思想(初始聚类后确定的大型聚类 随后将重新聚类)
- 这种策略很有用,因为生物样本通常具有多个功能专门化水平
-
困难:如何确定一个大型集群应该或不应该被重新分类
-
Computational
-
scRNA-seq数据量过大
-
许多scRNA-seq数据集非常大,有几十万个细胞,既有挑战也有机遇;很难对聚类结果进行可视化和解释;大数据集可确保分析具有高功率,并提高检测稀有细胞类型的能力
-
线性变换,如PCA,由于高水平的丢失和噪声,无法准确捕捉细胞之间的关系。
-
非线性变换更灵活,因为它们可以提供更美观的结果,并且更容易通过肉眼观察进行解释。
- tSNE
- UMAP
-
-
-
使用聚类方法时,参数需要用户进行设定
-
用户直接明确提出k
- k-means:k的选择由用户明确做出
-
间接提出k
- k-nearest-neighbours:k的决定可以是间接的
-
-
如何验证计算分析方法
-
基本方法:建立一个通过其他方式了解细胞类型的装置
-
例子
- 从不同的细胞系中选择细胞
- 使用经过充分研究和理解的组织(例如,外周血单核细胞)
- 考虑从胚胎发育的早期阶段提取的细胞
-
缺点
- 它们不可能像某些组织样本那样复杂或具有挑战性
- 许多合适的数据集非常小,因此很难在与当前实验相关的各种规模上测试方法
-
-
其他方法:使用空间方法
-
方法种类
- seqFISH
- RNAscope
- merFISH
-
优点
- 由于这些方法不依赖于测序,它们是正交的,阳性结果应被视为强验证
-
缺点
- 利用这些技术可以分析的mRNAs数量有限,建立分析所涉及的成本和挑战意味着它们的使用目前是有限的
-
-
Biological interpretation and annotation(生物解释和注释)
存在问题
-
对于用户而言:分析和理解每个集群包括一个通常耗时的过程,包括手动搜索文献和各种数据库
-
现存条件:将集群设计为特定细胞类型没有固定的标准或规则,也没有已知细胞类型及其特征的集中数据库
- 有趣的玄学:对于许多生物系统来说,依靠这种“民间传说”(相反,对于大多数领域,研究人员对最重要的细胞类型的性质以及它们表达的基因有一种隐含的理解。)进行细胞类型注释在实践中似乎效果良好。
-
batch effects:批量效应可能是实质性的,导致来自同一组织的细胞通过实验来源而不是生物相似性聚集在一起
-
解决方式
-
merging:在聚类之前合并两个样本中的数据
-
projecting:投影对应于最近邻查找问题,其目标是在一组经过预先聚类和注释的单元格中找到与查询单元格的最佳匹配。其主要限制是,从引用中不存在的新单元类型派生的单元可能会被错误地投影或根本无法投影。
-
细胞类型综合图谱comprehensive atlases of cell types
-
细胞本体数据库cell ontology database
- 介绍:与基因本体论类似,细胞本体论是分层的,因此它们能够以多种分辨率描述细胞类型之间的关系。与本体论的比较将更容易将新的细胞类型放到上下文中,并将它们与现有知识联系起来
- 难点:创建这些数据库的主要挑战是以有意义和全面的方式描述基于单个细胞中基因表达的细胞状态或转变
-
-
-
When does a cluster represent a new cell type(一个类何时会表示成一个新的细胞类型)
计算层面:scRNA-seq分析的一个中心目标通常是使用基于整个转录组的无监督聚类来定义细胞类型
生物学层面:为了让一种新的细胞类型被接受,有必要超越转录组的特征。研究人员必须证明,新发现的集群在功能上也是不同的。
例子:最引人注目的发现之一是Villani等人的研究,他们在人类血液中发现了几个新的细胞亚群。(根据一些特性,包括形态、病原体的刺激和激活T细胞的能力,新的类别被证明是不同的)
Outlook
聚类问题的重要性:由于许多下游分析都是基于聚类进行的,最终结论可能会受到聚类的强烈影响。
主流方法:仍是无监督聚类
- 会衍生不同的算法:在某种程度上,这种多样性反映了这样一个事实,即某些方法对于某些类型的数据表现得更好,
新思路(挑战仍会随着新技术的产生而演变)
- 多组学方法multi-omics method:检测细胞的多个方面,如DNA甲基组、开放染色质或蛋白质组
- 空间方法spatial method:结合空间信息。例如,一些难以根据转录体进行区分的细胞群可能在组织中占据不同的位置,或者被不同的邻居包围。
一些需要改进的其他领域
- 促进生物学解释和注释的方法
- 通过社区“统一度量衡”,以达到更高研究效率:社区需要就基于转录本的细胞类型的构成、功能验证所需的分析、如何选择标记基因以及命名时使用的命名法达成一致。