aggr代码 cellranger_单细胞转录组测序数据分析流程-数据预处理

结果评估

1. 质控:

单细胞测序产生数亿的结果序列,不可避免的会出现低质量的测序结果,存在各种情况的序列污染。因此序列过滤及质量评得极为重要。序列质量主要通过测序质量值Q20/Q30的占比来表征,即碱基测序结果的错误率在1% / 0.1%以下的比例。理想的测序结的碱基质量均高于30。

2. 细胞数量判断:

主要是对细胞数量、基因表达量、测序质量进行整体描述。

1) 过滤标准:

由于细胞破碎后游离RNA会释放到环境或微孔中,并且测序中也会存在一些死细胞,导致数据存在background值。因此,我们需要设定一定的标准来过滤掉假细胞或死细胞。

以10× Genomics为例,细胞数量判断主要通过分析UMI Counts-Barcode曲线斜率拐点,当存在多个斜率拐点的 合预期UMI=500时的细胞数量进行过滤。当第一个斜率拐点低于UMI=500的时候,选择UMI=500作为细胞的判断的标准;否则,选择和预期细胞数量最为接近的拐点作为细胞判断的位置。这样我们能够有效获得真实的并且在基因数量上可以分析的数据。

2) 定量reads数、基因表达量及细胞数量:

a) Mean Reads per Cell:以捕获5000个细胞、100G的测序量为标准,每个细胞的reads数大约在50k左右;

b) Median Genes per Cell:每个细胞的基因中位数取决于样本的细胞类型,例如在成熟B、T、粒细胞数量较多的组 于这些类型细胞表达的基因数普遍较少,导致基因中位数较低。而像肿瘤组织、或者体外培养的干细胞/类器官组织,它们的基因表达数较高,甚至可以超过1W,这就导致该类样本基因中位数非常高。因此,我们确认细胞数量以及基因中位数

时,需考虑实际组织的细胞类型组成情况。

c) Fraction Reads in Cells:每个样本过滤后细胞的reads数占总reads数(含背景)的百分比,反映的是测序数据的

该参数的理想值应达到80%以上。

3.多样本数据合并:

Fraction of Reads Kept:多样本进行数据合并时,各样本根据Mapped Barcoded Reads per Cell数量计算出来的数率。若各样本间Fraction of Reads Kept数值相差很大,需要进行Downsample处理,以数据量少的样本为基准将不同样本中细胞测序深度标化到同一水平,从而避免因测序深度差异导致的基因检测数量、基因表达水平的差异。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值