单细胞RNA测序研究的实验设计指南(部分阅读)

fig1
本篇内容只了解了数据处理与数据分析两个方面,其余方向与计算的关系不是很大,故没有学习。该篇论文的出版时间为2018,我们以流程了解为主,方法新颖性比较小。

数据处理

数据处理包括将原始测序读数(raw sequencing reads)转换为基因表达矩阵(gene expression matrices)所需的所有步骤。

Normalization

单细胞RNA-seq数据集显示了与非生物技术效应相关的高水平噪声(high level of noise)和变异性(variability),包括样品制备过程中随机RNA丢失、有偏扩增(biased amplification)和不完整文库测序等问题导致的dropout events。技术差异还源于对加工单元(如板或阵列)、时间点、设施和其他来源的批量影响。此外,自然变异性(natural variability)使分析复杂化,例如,由于细胞大小和RNA含量的变化、不同的细胞周期阶段和性别差异。因此,数据集规范化成为有意义数据分析的重要步骤。这可以通过在RNA中添加人工尖峰(artificial spike-in RNA)来指导,用于模拟技术噪声,如BASiCS中所实现的那样。然而,目前尚不清楚人工RNA是否充分反映了内源性RNA的行为,或者细胞RNA是否影响检测中的峰值。最近的高通量方法通过限制稀释来分配细胞,这使得利用RNA中的尖峰是不可行的,因为有大量的空反应体积。

最初为批量RNA测序开发的替代标准化方法,如log-expression、修剪平均M值和上四分位数,也可用于scRNAseq,尽管正在开发更专门的标准化方法,可以更好地处理这种特定类型数据的许多方面。最近的单细胞方法适用于样本间归一化(SCnorm)或基于池的尺寸因子反卷积(SCRAN)后基于细胞因子的归一化。然而,对于大规模变化源的校正,推荐的标准程序是具有正确分布的数据建模。在这里,混杂因素可以作为协变量纳入模型并回归。批次效应通常通过目视检查缩减空间表示(例如主成分)来检测,而kBET是基于k近邻的批次效应测试。它定量地测量数据集内和数据集之间的批量效应,而不直接校正数据。这种方法的结论是,将log规范化或SCRAN池与ComBat或limma回归相结合,可以在保留生物结构的同时提供最佳的批量校正数据集。当来自不同时间点的数据集、个体或scRNA-seq方法被整合时,批次效应问题会被放大。在这种情况下,Haghverdi等人提出了一种基于相互最近邻的方法,在这种方法中,尽管需要预定义的或相等的群体组成,但共享的群体子集足以纠正实验中的批量效应。或者,通过从基因表达相似性和共表达模式推断细胞簇,Biscuit(单细胞聚类和插补的贝叶斯推理)识别并纠正每个细胞的技术差异。此外,常用的scRNA-seq软件包Seurat提供了一种基于常见变量源的数据集集成解决方案,该解决方案具有一个新功能,允许识别共享群体,并有助于跨数据集的比较分析。

Imputation and gene selection插补和基因选择

除了具有高噪声水平外,scRNA-seq数据集也非常稀疏,这对细胞表型和数据解释提出了进一步的挑战。非表达基因和技术缺陷,如dropout event,导致表达矩阵中出现许多零,从而导致单个细胞转录组的不完整描述。为了减少稀疏性,缺失的转录值可以通过插补进行计算推断,例如,使用MAGIC,它使用扩散图查找数据结构并恢复缺失的信息。或者,scImpute通过拟合混合模型来学习基因的退出概率,然后通过借用类似细胞的信息(根据未受严重影响的基因选择)来估算可能的dropout event。

确定样本异质性的一种常见策略是分析数据集中高度可变的基因(高变基因,highly variable gene)。一个彻底的特征选择步骤,可以消除未提供的信息,提高信噪比,同时降低计算复杂度。scRNAseq工具中提取高变基因的常用策略利用平均转录物丰度与离散度之间的关系,如变异系数、负二项分布的离散参数或总变量的比例。


高变基因与标记基因(marker gene)的关系

1 FindVariableFeatures()–特征选择:

  • 高变异基因就是highly variable features(HVGs),就是在细胞与细胞间进行比较,选择表达量差别最大的基因,Seurat使用FindVariableFeatures函数鉴定高变基因,这些基因在不同细胞之间的表达量差异很大(在一些细胞中高表达,在另一些细胞中低表达)。默认情况下,会返回2,000个高变基因用于下游的分析。
    利用FindVariableFeatures函数,会计算一个mean-variance结果,也就是给出表达量均值和方差的关系并且得到top variable features,这一步的目的是鉴定出细胞与细胞之间表达量相差很大的基因,用于后续鉴定细胞类型。

2 FindMarkers()–寻找差异表达基因:

  • 标记基因 (marker gene),是一种已知功能或已知序列的基因,能够起着特异性标记的作用。Seurat使用FindMarkers和FindAllMarkers函数进行差异表达基因的筛选。

数据分析

scRNA-seq实验的一些主要应用包括评估样本异质性和识别新的细胞类型和状态。这是通过确定共表达模式和通过相似性聚类细胞来实现的。随后可以通过注释驱动簇的基因集(标记基因)来解释细胞簇。可视化检查细胞亚群结构的一种常见方法是进行降维(DR,dimensionality reduction)并将细胞投影到二维或三维空间。主成分分析PCA和t-SNE是常用的数据表示方法。UMAP是可行的替代方案,它们通过保持细胞的全局结构和伪时间顺序以及更快的速度克服了PCA和t-SNE的一些限制。尽管DR技术可以指导初始数据检查,但需要更健壮的聚类算法来定义细胞间的亚群。

尽管之前的假设和标准群体标记允许有监督聚类(例如,使用Monocle2),但在大多数情况下,无假设无监督聚类是首选的。一种常用的无监督算法是分层聚类,它在没有预定义聚类簇数的情况下提供一致的结果。层次聚类可以以聚集(自下而上)或分裂(自上而下)的方式进行,分别是连续合并或拆分聚类。PAGODA、SINCERA和bigSCale等工具实现了分层聚类。另一种合适的无监督聚类算法是k-means,它估计k个质心(簇的中心),将细胞分配到最近的质心,根据质心簇中细胞的平均值重新计算质心,然后重复这些步骤。例如,SC3集成了k-均值和分层聚类,以提供准确而稳健的细胞聚类。其他无监督的方法,如SNN-Cliq和Seurat,使用基于图的聚类,该方法使用表示单元的节点和表示类似表达的边构建图,然后将图划分为相互关联的“社区”。聚类可以直接基于表达式值或经过更多处理的数据类型(如主成分或相似矩阵)进行,后者在聚类分离中表现出更高的效率。簇稳定性通过重采样方法(例如,boostrapping)或基于指定簇内的细胞相似性(例如,silhouette index)进行测量。为了支持聚类再现性,可以使用调整后的兰德指数Rand index来比较不同的算法。聚类可以通过上述DR算法(例如PCA、t-SNE)产生的低维空间中的颜色编码来表示。

区分亚群的标记基因可以通过使用基于模型的方法(例如SCDE、MASTE和scDD)对簇进行差异基因表达分析来识别,这些方法通过使用混合模型来解释数据双峰性。单个基因可以作为细胞识别的二元分类器进行评估,例如,基于零膨胀数据的ROC或LRT测试。

scRNA-seq的另一个重要应用是轨迹推断,它通过使用反向图嵌入(Monocale2)和最小生成树(TSCAN)等算法,沿着预测的分化路径(伪时间,pseudotime)对细胞排序,从而估计动态过程。此外,轨迹推断方法已通过其准确性和整体性能的测试进行了全面的基准测试。为了进一步促进对结果的解释,SCENIC等工具为研究细胞亚群中的主动调节网络提供了机会。该分析指导了活性转录因子的识别,最终提供了驱动异质性的细胞机制的见解。

要使scRNA-seq数据公开可用,可以使用数据存储和共享存储库。基因表达综合数据库(GEO)通常用于访问原始数据和更经过处理的格式,如基因表达量化矩阵。人类细胞图谱等大型项目建立了特定的数据协调平台,以进一步简化数据查询和可访问性。对于数据分析,许多研究人员通过GitHub等公共数据库免费开放访问他们的计算管道,或者通过Bioconductor提供现成的软件包。

单细胞领域的未来方向

单细胞转录组学技术正在迅速发展。可以分析的细胞数量正在增加到每次实验数十万个细胞,显著提高了检测罕见和瞬时细胞类型的统计能力和分辨率。然而,高通量技术带来的代价是降低分子捕获率,未来的方法需要更好地平衡细胞数量和细胞分辨率。这将伴随着测序成本的降低,最终实现复杂组织的全面、高分辨率快照。

如今,组织和生物体水平的项目使用“sky-dive”实验策略,最初创建一个包含数千个细胞的低分辨率图谱,以估计样本异质性,然后通过高效的scRNA-seq方法放大目标细胞类型,以实现更高的每细胞分辨率。未来,高分辨率图谱将允许用户放大现有数据,避免昂贵而耗时的样本再处理。

尽管目前的方法转录组分辨率较低或需要事先选择标记,但它们在解决组织复杂性方面非常强大。未来的空间方法应该允许该领域从当前的组合实验设计或伪空间分析发展到三维的完整组织表达谱。最终,多细胞系统中的表型异质性和动态性将通过在空间和时间维度上的无偏转录组分析与来自同一细胞的额外分子信息层(如遗传变异和基因调控标记,如DNA甲基化和开放染色质)的组合分析相融合来解决。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值