鉴于代码的排版问题,建议在电脑上阅读本文。
组装得到基因组的序列只是开展基因组研究的第一步,基因的结构是基因组后续功能研究的基石。在NCBI中,除了提供基因组序列外,还提供了基因结构的信息,采用的就是GFF格式。human示例如下
GFF全称Generic Feature Format, 描述了基因组上各种特征的区间信息,包括染色体,基因,转录本等。GFF文件本质上是一个\t分隔的,共9列的纯文本文件。
1. column1
第一列是seqid, 代表序列ID, 通常是染色体的ID, 每条染色体拥有一个唯一的ID。
2. column2
第二列是source, 代表基因结构的来源,可以是数据库的名称,比如来自genebank数据库,也可以是软件的名称,比如用GeneScan软件预测得到,当然,也可以为空,用.点号填充。
3. column3
第三列是type, 代表区间对应的特征类型,比如gene, exon等。
4. column4
第四列是start, 代表区间的起始位置。
5. column5
第四列是end, 代表区间的终止位置。
6. column6
第六列是score, 软件提供了统计值,如果没有,就用.填充。
7. column7
第七列是strand, 代表正负链的信息, +表示正链,-表示负链,?表示不清楚正负链的信息,当正负链信息没有意义时,可以用.填充。
8. column8
第八列是phase,当描述的是CDS区间信息时,需要指定翻译时开始的位置,取值范围包括0,1,2。
9. column9
第九列是attributes, 表示属性,每种属性采用key=value 的形式,多个属性之间用;分号分隔。
下面看下NCBI提供的human的GFF文件,链接如下ftp://ftp.ncbi.nlm.nih.gov/genomes/H_sapiens/GFF/ref_GRCh38.p12_top_level.gff3.gz
在GFF文件的开头,可以有#开头的注释行,示例如下##gff-version 3
#!gff-spec-version 1.21
#!processor NCBI annotwriter
#!genome-build GRCh38.p12
#!genome-build-accession NCBI_Assembly:GCF_000001405.38
#!annotation-date 26 March 2018
#!annotation-source NCBI Homo sapiens Annotation Release 109
##sequence-region NC_000001.11 1 248956422
##species https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=9606
对于不同的基因组特征,其属性不同。
1. 染色体
染色体用region表示,1号染色体对应的信息如下NC_000001.11 RefSeq region 1 248956422 . + . ID=id0;Dbxref=taxon:9606;Name=1;chromosome=1;gbkey=Src;genome=chromosome;mol_type=genomic DNA
染色体是基础,后续的基因,exon等都是需要定位在染色体上的。
2. 非编码基因
对于非编码基因,首先给出基因的起始和终止位置,然后描述转录本的信息。对于转录本而言, 通过exon展示其结构。
假基因示例如下NC_000001.11 BestRefSeq pseudogene 11874