aggr代码 cellranger_单细胞转录组测序数据分析流程-数据预处理-CSDN博客

本文链接：https://blog.csdn.net/weixin_39741101/article/details/111807994

结果评估

1. 质控：

单细胞测序产生数亿的结果序列，不可避免的会出现低质量的测序结果，存在各种情况的序列污染。因此序列过滤及质量评得极为重要。序列质量主要通过测序质量值Q20/Q30的占比来表征，即碱基测序结果的错误率在1% / 0.1%以下的比例。理想的测序结的碱基质量均高于30。

2. 细胞数量判断：

主要是对细胞数量、基因表达量、测序质量进行整体描述。

1) 过滤标准：

由于细胞破碎后游离RNA会释放到环境或微孔中，并且测序中也会存在一些死细胞，导致数据存在background值。因此，我们需要设定一定的标准来过滤掉假细胞或死细胞。

以10× Genomics为例，细胞数量判断主要通过分析UMI Counts-Barcode曲线斜率拐点，当存在多个斜率拐点的合预期UMI=500时的细胞数量进行过滤。当第一个斜率拐点低于UMI=500的时候，选择UMI=500作为细胞的判断的标准；否则，选择和预期细胞数量最为接近的拐点作为细胞判断的位置。这样我们能够有效获得真实的并且在基因数量上可以分析的数据。

2) 定量reads数、基因表达量及细胞数量：

a) Mean Reads per Cell：以捕获5000个细胞、100G的测序量为标准，每个细胞的reads数大约在50k左右；

b) Median Genes per Cell：每个细胞的基因中位数取决于样本的细胞类型，例如在成熟B、T、粒细胞数量较多的组于这些类型细胞表达的基因数普遍较少，导致基因中位数较低。而像肿瘤组织、或者体外培养的干细胞/类器官组织，它们的基因表达数较高，甚至可以超过1W，这就导致该类样本基因中位数非常高。因此，我们确认细胞数量以及基因中位数

时，需考虑实际组织的细胞类型组成情况。

c) Fraction Reads in Cells：每个样本过滤后细胞的reads数占总reads数(含背景)的百分比，反映的是测序数据的

该参数的理想值应达到80%以上。

3.多样本数据合并：

Fraction of Reads Kept：多样本进行数据合并时，各样本根据Mapped Barcoded Reads per Cell数量计算出来的数率。若各样本间Fraction of Reads Kept数值相差很大，需要进行Downsample处理，以数据量少的样本为基准将不同样本中细胞测序深度标化到同一水平，从而避免因测序深度差异导致的基因检测数量、基因表达水平的差异。