RPKM、FPKM、TPM

RPKM、FPKM、TPM

RPKM(Reads Per Kilobase per Million)

每千个碱基的转录每百万映射读取的reads数

FPKM(Fragments Per Kilobase per Million)

每千个碱基的转录每百万映射读取的fragments

TPM(Transcripts per million)

每百万条reads的转录本

ref

RPKM和FPKM值衡量基因表达量

StatQuest学习笔记24——RPKM FPKM TPM

Read count CPM RPKM

http://www.360doc.com/content/18/0112/02/50153987_721216719.shtml【看这个】

YouTube上的视频链接https://www.youtube.com/watch?v=TTUrtCY2k-w

理解

进行基因差异表达的分析

一般来说,在多个样本中比较不同基因的表达量

因此,需要对数据进行标准化

数据标准化的两个标准因素:

  • 基因长度
    • 基因越长,read counts数目越多
  • 测序深度
    • 测序深度越高,read counts数目越多

而,RPKM、FPKM、TPM被用来作为标准化数值

(一个基因越长,测序深度越高,落在其内部的read counts数目就会相对越多。)

具体计算

http://www.360doc.com/content/18/0112/02/50153987_721216719.shtml【看这个】

如RPKM

即read是以百万为单位,base是以千为单位

  1. 测序深度标准化【计算 reads per million】:
    1. 算出每个样本的reads数目(reads数目单位是百万),记为A
    2. 某样本的每个基因的reads数目除以A
    3. 得到每个样本中,每个基因的reads数目占对应样本的reads总数的占比。记为B
  2. 基因长度标准化:
    1. 计算rpkm:用B除以每个样本中每个基因序列的长度(基因序列单位是千)
  3. 得到PRKM

FPKM和RPKM的定义是相同的,唯一的区别是**FPKM适用于双端测序文库,而RPKM适用于单端测序文库。**FPKM会将配对比对到一个片段(fragment)上的两个reads计算一次,接下来的计算过程跟RPKM一样。

TPM,计算顺序与RPKM相反,即先考虑基因长度,再是测序深度。

  1. reads per kilobase
  2. 除以样本的百万碱基

每个样本的TPM的总和是相同的,这就意味着TPM数值能体现出比对上某个基因的reads的比例,使得该数值可以直接进行样本间的比较。

other

Reads即是指下机后fastq数据中的每一条Reads,
Fragments则是指每一段用于测序的核酸片段。

碱基数(base,通常以G为单位):碱基的数目

序列数(reads,通常以M为单位):含有一定碱基数目的基因序列的数目

序列数×序列读长=碱基数

(举个例子,我做了20M reads的转录组测序,序列读长是双端150bp,那么碱基数就约等于2×150×20M=6G)

转录组测序的分析流程大致可以分成三类

  • 基因组比对(Genome mapping)
  • 转录组比对(Transcriptome mapping)
  • 转录组组装(Reference-free assembly)

(一般来说,公共数据库会提供测序样品的基因组和转录本的序列。因此,只要知道reads来自那一条转录本即可。只要将reads和参考[refernece]基因组/转录组的序列进行比较和匹配的过程,称之为“比对”,就是mapping和read alignment)

  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值