在对RNAseq进行分析时,总是被问到这3个概念的差别。那么这里我再梳理下自己对这3个概念的理解,希望可以帮助你。
01
Reads Count
在RNAseq数据中,raw reads count一般是指mapped到基因外显子区域的reads数目。比如说htseq,STAR,或者RSEM等NGS分析流程计算产生的counts值。其中RSEM(RNA-Seq by Expectation-Maximization),考虑到一条read 可能会匹配多个exon位置,故而其产生的为expected counts。
注:可以通过IGV对bam文件进行真实的reads数目观察
02
FPKM与RPKM
RPKM和FPKM在我刚读研究生的时候,就已经很常用了,不过随着生物信息学发展和算法改进,逐渐有些科学家认为这种对基因表达归一化的方法是够准确,所以现在差异分析方法都采用raw reads count值,作为输入数据,比如EdegR、DESeq2。
RPKM
RPKM(Reads Per Kilobase