表达量 RPKM FPKM TPM

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/maggieJJ/article/details/88950499

关于表达量问题:
假设我们通过比对,得到了A、B、C、D四种基因的reads覆盖数目。
在这里插入图片描述
通过这个数据,我们看不出来同一个样本,哪个基因表达量更高,也看不出来同一个基因,哪个样本表达量更高,原因有二:

  1. 不同基因在同一个样本中,基因越长,随即打断之后得到的片段就越多,该基因被测到的概率就越大,落在该基因上的 reads 就越多。所以,要考虑基因的长度的影响

  2. 同一个基因在不同样本中,一个样本的测序深度越高,相当于抽样次数越多,落在该样本中基因上的 reads 就越多。所以,要考虑测序深度的影响

所以我们要进行标准化,排除基因长度和测序深度的影响。

下面左图是先处以基因的长度,以1kb为单位,右图是除以每个样本测序得到的所有reads的数目(包括非基因区的reads 数目)
在这里插入图片描述 在这里插入图片描述

右图就可以比较基因之间表达量以及计算表达量的差异了。

但是实际我们的计算单位是以下三种

  • RPKM
    Reads Per Kilobase of transcript sequence per Millions base sequenced
    看概念是很绕的,其实很简单,只是一个单位问题,基因长度的单位是kb reads,覆盖深度的单位是million,也就是百万个reads;

RPKMi=total exon readsmapped reads (Millions)exon length (kb)RPKM_i = \frac{total \ exon \ reads}{mapped \ reads \ (Millions) \cdot exon \ length \ (kb)}

  • FPKM
    Fragments Per Kilobase of transcript sequence per Millions base pairs sequenced

这个和RPKM的唯一区别就是Reads和Fragments的区别:
RPKM的诞生是针对早期的SE测序,FPKM则是在PE测序上对RPKM的校正。
只要明确​Reads 和 Fragments的区别,RPKM和FPKM的概念便易于区分。Reads即是指下机后fastq数据中的每一条Reads,Fragments则是指每一段用于测序的核酸片段,在SE中,一个Fragments只测一条Reads,所以,Reads数与Fragments数目相等;在PE中,一个Fragments测两端,会得到2条Reads,但由于后期质量或比对的过滤,有可能一个Fragments的2条Reads最后只有一条进入最后的表达量分析。总之,对某一对Reads而言,这2条Reads只能算一个Fragments,所以,Fragment的最终数目是Reads的1到2倍之间。

当 single-end 测序的时候,RPKM 与 FPKM 是等价的;当 pair-end 测序的时候,应该使用 FPKM。所以,FPKM 是更为通用的单位。

(2)FPKMi=total exon fragmentsmapped fragments (Millions)exon length (kb)=XiN106li103=XiliN109=Xili1N109\begin{aligned} FPKM_i & =\frac{total \ exon \ fragments}{mapped \ fragments \ (Millions) \cdot exon \ length \ (kb)} \\ \\ & = \frac{X_i}{\frac{N}{10^6} \cdot \frac{l_i}{10^3}} \\ & = \frac{X_i}{l_i \cdot N} \cdot 10^9 \\ & = \frac{X_i}{l_i} \cdot \frac{1}{N} \cdot 10^9 \end{aligned} \tag2

XiX_i 代表某一个基因所有外显子覆盖的Fragment数量,lil_i表示这个基因所有外显子的长度,NN表示这个样本的总fragments数目

  • TPM
    transcript per million

TPM相比于RPKM和FPKM的差异和不同:

  1. TPM和RPKM一样,计算的是reads counts;
  2. TPM的单位计算的是转录本(由于可变剪切,一个基因有不同的转录本,见下面彩图)

问题来了:FPKM计算的是外显子,对于有不同转录本的基因,FPKM用的是哪个转录本的外显子呢?具体看你自己计算的要求吧,有时候选最长的。

  1. 测序深度校正时考虑了转录本的长度,FPKM对于测序深度的校正是考虑了总的fragments 数目N/106N/ {10^6},单位是millions,而TPM则是考虑了每一个转录本的长度的影响。

(2)TPMi=TijTjlj103106li103=Tili(1jTjlj)106\begin{aligned} TPM_i & = \frac{T_i}{\frac{\sum_j\frac{T_j}{l_j*10^3}}{10^6} * \frac{l_i}{10^3}} \\ \\ & = \frac{T_i}{l_i} * \bigg(\frac{1}{\sum_j\frac{T_j}{l_j}}\bigg) * 10^6 \end{aligned} \tag2

公式中,TiT_i 表示一个转录本的reads counts,lil_i表示这个转录本的长度
公式变形 ,都乘以N:
(3)TPMi=TiliN(1jTjljN)106TPM_i = \frac{T_i }{l_i * N} * \bigg(\frac{1}{\sum_j\frac{T_j}{l_j * N}}\bigg) * 10^6 \tag 3

可以看出TPM反应的是一个转录本占所有转录本FPKM的百分比,那么一个样本的所有转录本的TPM数值加起来一定是11061*10^6 即 1M,对于每一个样本都是如此,所以TPM在不同样本比较时候更准确一些。

关于RPKM - FPKM - TPM 的一个博客介绍:
https://www.rna-seqblog.com/rpkm-fpkm-and-tpm-clearly-explained/

可变剪切示意图:
在这里插入图片描述
可变剪切的类型:
在这里插入图片描述

展开阅读全文

没有更多推荐了,返回首页