GTF基因注释文件详解

最新推荐文章于 2025-03-27 15:52:17 发布

宁生信

最新推荐文章于 2025-03-27 15:52:17 发布

阅读量5.2w

点赞数 20

分类专栏： RNAseq

本文链接：https://blog.csdn.net/sinat_38163598/article/details/72851239

版权

RNAseq 专栏收录该内容

9 篇文章

订阅专栏

GFF和GTF是两种最常用的数据库注释格式，在信息分析中建库时除了需要fasta文件一般还会需要这两种文件，提取需要的信息进行注释。
Cufflinks/Tophat 软件需要 GTF文件作为基因注释文件。

GFF全称为general feature format，这种格式主要是用来注释基因组。

GTF全称为gene transfer format，主要是用来对基因进行注释。

目前两种文件可以方便的相互转化，比如:使用Cufflinks软件的的gffread。

GTF文件由9列数据组成，这两种文件的前8列都是相同的（一些小的差别），

gtf文件是以tab键分割的9列组成，以下为每一列的对应信息：

seq_id

source

type

start

end

score

strand

phase

attributes

chr12

danRer10_refGene

exon

25132483

25132543

gene_id "NM_199912"; transcript_id "NM_199912";

chr12

danRer10_refGene

start_codon

25132758

25132760

gene_id "NM_199912"; transcript_id "NM_199913";

chr12

danRer10_refGene

CDS

25132758

25132785

gene_id "NM_199912"; transcript_id "NM_199914";

chr12

danRer10_refGene

exon

25132720

25132785

gene_id "NM_199912"; transcript_id "NM_199915";

1) seq_id：序列的编号，一般为chr或者scanfold编号；
2) source: 注释的来源，一般为数据库或者注释的机构，如果未知，则用点“.”代替；
3) type: 注释信息的类型，比如Gene、cDNA、mRNA、CDS等
4) start:该基因或转录本在参考序列上的起始位置；
5) end: 该基因或转录本在参考序列上的终止位置；
6) score: 得分，数字，是注释信息可能性的说明，可以是序列相似性比对时的E-values值或者基因预测是的P-values值，“.”表示为空；
7) strand: 该基因或转录本位于参考序列的正链(+)或负链(-)上;
8) phase: 仅对注释类型为“CDS”有效，表示起始编码的位置，有效值为0、1、2(对于编码蛋白质的CDS来说，本列指定下一个密码子开始的位置。每3个核苷酸翻译一个氨基酸，从0开始，CDS的起始位置，除以3，余数就是这个值，，表示到达下一个密码子需要跳过的碱基个数。该编码区第一个密码子的位置，取值0,1,2。0表示该编码框的第一个密码子第一个碱基位于其5'末端；1表示该编码框的第一个密码子的第一个碱基位于该编码区外；2表示该编码框的第一个密码子的第一、二个碱基位于该编码区外；如果Feature为CDS时，必须指明具体值。)；
9) attributes:一个包含众多属性的列表，格式为“标签＝值”（tag=value），标签与值之间以空格分开，且每个特征之后都要有分号；（包括最后一个特征），其内容必须包括gene_id和transcript_id。以多个键值对组成的注释信息描述，键与值之间用“=”，不同的键值用“；