GTF文件的全称是gene transfer format,主要是对染色体上的基因进行标注。怎么理解呢,其实所谓的基因名,基因座等,都只是后来人们给一段DNA序列起的名字而已,还原到细胞中就是细胞核里面的一条长长的染色体(DNA序列)。而这个GTF文件的主要功能,就是指出我们所谓的基因在染色体上的位置(coordinate),并且还标注了这一段区间的其他信息。
GTF文件我一般喜欢去ensembl下载,gencode也可以。 这里给出链接:
ftp://ftp.ensembl.org/pub/release-89/gtf/homo_sapiens/
http://www.gencodegenes.org/releases/current.html
关于这个文件的解释,这里参考ensembl 给出的官方说明: http://www.ensembl.org/info/website/upload/gff.html
GFF/GTF File Format - Definition and supported options
The GFF (General Feature Format) format consists of one line per feature, each containing 9 columns of data, plus optional track definition lines. The following documentation is based on the Version 2 specifications.
The GTF (General Transfer Format) is identical to GFF version 2.
Fields
Fields must be tab-separated. Also, all but the final field in each feature line must contain a value; "empty" columns should be denoted with a '.'
- seqn