衡量基因相对表达量的RPKM、FPKM、TPM详解

衡量基因相对表达量的RPKM和FPKM、及TPM

1.RPKM(Reads Per Kilobase per Million)和FPKM(Fragments Per Kilobase per Million)

1.引入“每一千碱基(per kilobase)”的原因在于,不同的RNA可能有不同长度,长度越长,对应的reads就越多。当每个RNA都除以自身长度(以1000碱基,即kb为单位)时,就可以比较同一个样本中不同基因的相对表达量了。
2.引入“每一百万reads”的原因是,不同的样本可能测序的深度不一样,深度越深,当然对应的reads就越多了。如果结果除以各自库的数量(以一百万reads为单位),那么我们就能很好地衡量两个不同样本中同一个基因的相对表达量。

计算方法

第一步先将测序深度标准化,计算方法很简单,先分别计算出每个样本的总reads数,然后将表中数据分别除以总reads数即可,这样就得到了reads per million。

第二步是基因长度的标准化。将第一步的read per million直接除以基因长度即可。

FPKM和RPKM的定义是相同的,唯一的区别是FPKM适用于双端测序文库,而RPKM适用于单端测序文库。是衡量基因相对表达量的一个公式,

RPKM是将Map到基因的Reads数除以Map到Genome的所有Read数(以Million为单位)与RNA的长度(以KB为单位),是衡量基因相对表达量的一个公式,适用于单端测序

FPKM是将Map到基因的Fragments数除以Map到Genome的所有Read数(以Million为单位)与RNA的长度(以KB为单位)。适用于单端和双端测序。
它们2者的不同:
在single-end(单端测序)测序中,FPKM将read当做fragment计算,此时FPKM和RPKM是相同的。
而在pair-end(双端测序)测序 中, 若一堆paired-read 都比对上了,当做一个fragment。
在这里插入图片描述
TPM:Transcripts Per Kilobase per Million mapped reads (每千个碱基的转录每百万映射读取的Transcripts):它先对每个基因的read数用基因的长度进行校正,之后再用校正后的这个基因read数(nr/Lr)与校正后的这个样本的所有校正后的read数(sum( nr/Lr+………+ nm/Lm ))求商,是衡量基因相对表达量的一个手段
TPM的出现:
TPM的不同在于它的处理顺序是不同的。即先考虑基因长度,再考虑测序深度。
它的好处是,上边FPKM:
FPKM = (10^6 * nf) / (L * N)
其中:
nf 代表比对至目标基因的fragment数量;
L代表目标基因的外显子长度之和除以1000,单位是Kb;
N是总的有效比对至基因组的fragment数量。
FPKM中N同样会受到各个转录基因长度(distribution of transcript lengths)的影响,也就是说:FPKM/RPKM是不准确的。而TPM在一个样本中一个基因的TPM:先对每个基因的read数用基因的长度进行校正,之后再用校正后的这个基因read数(nr/Lr)与校正后的这个样本的所有校正后的read数(sum( nr/Lr+………+ nm/Lm ))求商。TPM除以经过基因长度归一化后的有效比对的read总数,即归一化后的测序深度。
————————————————

杨梦磊
20211024

  • 26
    点赞
  • 56
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
基因表达差异显著性检验模型的建立是基于基因表达数据的统计分析方法之一。常用的方法有t检验、方差分析(ANOVA)、Wilcoxon秩和检验等。 其中,对于基因表达FPKM(Fragments Per Kilobase of transcript per Million mapped reads)的差异显著性检验,一种常见的方法是使用t检验。具体步骤如下: 1. 数据预处理:对原始表达矩阵进行数据清洗、归一化等处理,确保数据符合统计分析的要求。 2. 样本分组:根据实验设计和研究目的,将样本分为不同的组别,比如对照组和处理组。 3. 假设检验:对每个基因进行t检验,比较两组样本的平均表达是否存在显著差异。假设检验的零假设为两组样本的均值相等,备择假设为两组样本的均值不相等。 4. 多重检验校正:由于基因表达数据中存在大的假阳性和假阴性结果,需要进行多重检验校正。常用的方法有Bonferroni校正、Benjamini-Hochberg校正等。 5. 结果解读:根据差异显著性检验的结果,筛选出具有显著差异的基因,进一步进行生物学意义的分析和解读。 需要注意的是,差异显著性检验模型的建立还需要考虑其他因素,如批次效应、样本匹配等,以提高统计分析的可靠性和准确性。此外,还可以使用其他的统计方法和机器学习算法,如方差稳定化变换、差异表达基因分析等,来完成基因表达的差异显著性分析。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱做饭的电饭煲

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值