图片来自网络
我们都知道,在RNA seq 测序的过程中,我们测完序的最终目的是想根据测序的结果,最终分析得到差异基因以及潜在可能的功能分析,那么在进行差异分析以及对表达量进行分析的时候,对基因原始的Count 进行标准化,消除由于测序过程中单个基因自身的长度以及测序深度对数据的影响,是非常关键的一步。
RNAseq 测序,对于一个基因的Count 的计数呢,主要是基于匹配到该基因的外显子上的数目,那么按照这样理解的话,基因越长,比对到该基因(外显子)上的count 数就越多;而影响Count 的另一个因素就是测序深度,也就是该基因在测序的过程中每百万碱基检测到的数目,测序深度越大,那么本次RNA seq 中的所有read count都会增加,因在差异化以及探索表达量的过程中呢,需要对基因长度和测序深度进行标准化,消除这2个因素带来的影响,从而准确的确定基因在样本中是真实的差异表达。
那讲到了这里我们就需要来理解一下在RNA seq 的Count 数进行标准化的常用方法:
常用的方法,包括