RPKM、FPKM、TPM
RPKM(Reads Per Kilobase per Million)
每千个碱基的转录每百万映射读取的reads数
FPKM(Fragments Per Kilobase per Million)
每千个碱基的转录每百万映射读取的fragments
TPM(Transcripts per million)
每百万条reads的转录本
ref
StatQuest学习笔记24——RPKM FPKM TPM
http://www.360doc.com/content/18/0112/02/50153987_721216719.shtml【看这个】
YouTube上的视频链接https://www.youtube.com/watch?v=TTUrtCY2k-w
理解
进行基因差异表达的分析
一般来说,在多个样本中比较不同基因的表达量
因此,需要对数据进行标准化
数据标准化的两个标准因素:
- 基因长度
- 基因越长,read counts数目越多
- 测序深度
- 测序深度越高,read counts数目越多
而,RPKM、FPKM、TPM被用来作为标准化数值
(一个基因越长,测序深度越高,落在其内部的read counts数目就会相对越多。)
具体计算
见http://www.360doc.com/content/18/0112/02/50153987_721216719.shtml【看这个】
如RPKM
即read是以百万为单位,base是以千为单位
- 测序深度标准化【计算 reads per million】:
- 算出每个样本的reads数目(reads数目单位是百万),记为A
- 某样本的每个基因的reads数目除以A
- 得到每个样本中,每个基因的reads数目占对应样本的reads总数的占比。记为B
- 基因长度标准化:
- 计算rpkm:用B除以每个样本中每个基因序列的长度(基因序列单位是千)
- 得到PRKM
FPKM和RPKM的定义是相同的,唯一的区别是**FPKM适用于双端测序文库,而RPKM适用于单端测序文库。**FPKM会将配对比对到一个片段(fragment)上的两个reads计算一次,接下来的计算过程跟RPKM一样。
TPM,计算顺序与RPKM相反,即先考虑基因长度,再是测序深度。
- reads per kilobase
- 除以样本的百万碱基
每个样本的TPM的总和是相同的,这就意味着TPM数值能体现出比对上某个基因的reads的比例,使得该数值可以直接进行样本间的比较。
other
Reads即是指下机后fastq数据中的每一条Reads,
Fragments则是指每一段用于测序的核酸片段。
碱基数(base,通常以G为单位):碱基的数目
序列数(reads,通常以M为单位):含有一定碱基数目的基因序列的数目
序列数×序列读长=碱基数
(举个例子,我做了20M reads的转录组测序,序列读长是双端150bp,那么碱基数就约等于2×150×20M=6G)
转录组测序的分析流程大致可以分成三类
- 基因组比对(Genome mapping)
- 转录组比对(Transcriptome mapping)
- 转录组组装(Reference-free assembly)
(一般来说,公共数据库会提供测序样品的基因组和转录本的序列。因此,只要知道reads来自那一条转录本即可。只要将reads和参考[refernece]基因组/转录组的序列进行比较和匹配的过程,称之为“比对”,就是mapping和read alignment)