R语言 | 计算基因表达量 TPM R脚本

图片

TPM是什么?为什么要计算TPM

我们通常所说的TPM,RPKM,FPKM,其实是三种对测序的Row reads count进行归一化的手段。

TPM: Transcripts Per Kilobase of exon model per Million mapped reads (每千个碱基的转录每百万映射读取的Transcripts)。

除了TPM还有RPKM和FPKM,不过科研人员主要使用 TPM的方法对基因表达量进行归一化。

RPKM: Reads per kilobase of transcript per Million reads mapped(每千个碱基的转录每百万映射读取的reads)

FPKM: Fragments Per kilobase of transcript per Million reads mapped(每千个碱基的转录每百万映射读取的fragments)

为什么不能直接使用Row reads count呢?

在RNA-seq中,每个mRNA转录本的表达水平是由 映射(mapped) 片段的总数来衡量的,这预计与其丰度水平成正比。然而,在计算Row reads count 之后,数据归一化对于确保准确推断基因表达是必不可少的。

mapped 到给定基因的 Row reads count 在样本或条件之间不具有可比性,因为测序深度文库大小(mapped reads 的总数) 通常因样本而异。

一个样本中不同基因的Row reads count也不能直接进行比较,因为与表达水平相似的较短转录本 (transcript) 相比,较长的转录本具有更多的读数。

因此,为了消除测序数据中的技术偏差,需要使用归一化,而不是直接使用Row reads count,例如RPKM(每千碱基每百万次映射的转录的读数)、FPKM(每百万个片段的每千基的转录的片段)和TPM(每百万条的转录)。

FPKM与RPKM密切相关,但用片段(Pair reads) 取代了单端测序(这种命名的原因是历史的,因为最初的读取是单端的,但随着 pair-end 测序的出现,现在谈论片段更有意义,因此也就是FPKM).

RPKM、FPKM 和 TPM这三个指标试图标准化测序深度和基因长度。

目前TPM的计算方式更加科学,被研究人员普遍认可。

计算公式:图片

# 1.设置工作路径
setwd("D:/filename/")

# 2. 读取数据 【数据格式要保存为csv格式】
mycounts<-read.csv("010_gene_RRC_Guy11.csv")

head(mycounts)

rownames(mycounts)<-mycounts[,1]

mycounts<-mycounts[,-1]

head(mycounts)

kb <- mycounts$Length / 1000
head(kb)

# 3. 计算TPM 【至少要有两列Row reads count数据,才能计算,否则报错。其中的mycounts[,1:2]根据你的样品数量,像这里我只有两个样品就是1:2,如果你是10个样品就是 1:10】

countdata <- mycounts[,1:2]

head(countdata)

rpk <- countdata / kb
head(rpk)

tpm <- t(t(rpk)/colSums(rpk) * 1000000)

head(tpm)

# 4.保存结果

write.table(tpm,file="011_gene_Guy11_TPM.tsv",sep="\t",quote=F)


输入文件格式:

  • 输入的文件 010_gene_RRC_Guy11.csv 具体数据格式,四行,第一行为基因id,第二行-第n行为你的基因表达量(Row reads count),第n+1行为你的基因Length,最后保存在csv格式,如下图。

图片

TPM 与 DESeq2 或 TMM 的归一化结果还是有一些差异,目前来看 DESeq2 归一化方法对于大多数情况,结果更加准确。

因此,重要的是在选择归一化方法时考虑自己的实验目的和实验材料,而不是任意地将单一方法用于所有实验数据。

研究人员需要意识到各种方法所做的假设,以及可能违反这些假设的数据特征,以便为他们的研究选择正确的归一化方法。

参考文献

  • Zhao S, Ye Z, Stanton R. Misuse of RPKM or TPM normalization when comparing across samples and sequencing protocols. RNA. 2020 Aug;26(8):903-909.

  • Zhao, Y., Li, MC., Konaté, M.M. et al. TPM, FPKM, or Normalized Counts? A Comparative Study of Quantification Measures for the Analysis of RNA-seq Data from the NCI Patient-Derived Models Repository. J Transl Med 19, 269 (2021).


您可能还想看:

【文献阅读001】RNA-seq 差异分析的归一化方法比较

【生信学习第一天】DEseq2 差异表达基因计算

**搜文献神器,谷歌搜索,谷歌学术免费用
**

  • 4
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值