一文掌握二代测序NGS

最新推荐文章于 2024-12-05 18:38:38 发布

科研小行星

最新推荐文章于 2024-12-05 18:38:38 发布

阅读量1.8k

点赞数 1

文章标签：测序

原文链接：https://www.51xxziyuan.com/54/6913.html

版权

0 (1).png

一. RPKM,FPKM,TPM的区别
二. 二代测序中的barcode
三. De Novo sequencing & resequencing
四. depth & coverage
五. 高通量测序技术
六. Sanger测序
七. 三代测序技术
八. 外显子测序
九. small RNA测序
十. SNP、SNV、InDel、CNV、SV
十一. Duplication
十二. Read
十三. Contig/Scaffold
十四. gene fusion，基因融合
十五. Paired-end reads和single reads

一.RPKM,FPKM,TPM的区别

先说一个背景：
在运用NGS检测基因表达量时，如果直接用每个基因对应的reads数来统计表达量，常常会导致偏差。偏差主要来源于2个方面：
1) 测序深度；
2) 基因长度。
测序深度越深，基因长度越长，对于随机取样的NGS测序来说，越容易测到该基因的reads，即相应的reads数越多。
因此，基于一定标准，将基因表达量均一化之后再做描述，就能避免上述偏差，获得有意义的结果。
在此，介绍几个均一化之后的表达量的概念：

RPKM: Reads Per Kilobase per Million mapped reads (每千个碱基的转录每百万映射读取的reads)
FPKM: Fragments Per Kilobase per Million mapped fragments(每千个碱基的转录每百万映射读取的fragments)
TPM：Transcripts Per Kilobase per Million mapped reads (每千个碱基的转录每百万映射读取的Transcripts)
举一个简单例子：
表1. 各基因reads数。

基因名(长度)	样本A	样本B	样本C
alpha(2kb)	10	12	30
beta(4kb)	20	25	60
gama(1kb)	5	8	15
theta(10kb)	0	0	1

大家可以清楚地看到，样本C的4个基因read counts数目明显多於其他两个样本，説明其测序深度较高，基因beta的长度的基因alpha的两倍，也使得其read counts在三个样本中都高於alpha。接下来我们要做就是对这个矩阵进行標准化，分別计算RPKM, FPKM和TPM,为了使数值可读性更好，下面的计算中我们用10代表million。

我们先来説説RPKM怎么算。第一步先將测序深度標准化，计算方法很简单，先分別计算出每个样本的总reads数（这里以10为单位），然后將表中数据分別除以总reads数即可，这样就得到了reads per million. 如下表2：
表2. 各基因reads per million。

文章剩余内容查看<<<<<