gff文件_GFF文件格式简介

最新推荐文章于 2024-05-25 10:44:00 发布

Han H

最新推荐文章于 2024-05-25 10:44:00 发布

阅读量4k

点赞数

文章标签： gff文件

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42565652/article/details/111981573

版权

鉴于代码的排版问题，建议在电脑上阅读本文。

组装得到基因组的序列只是开展基因组研究的第一步，基因的结构是基因组后续功能研究的基石。在NCBI中，除了提供基因组序列外，还提供了基因结构的信息，采用的就是GFF格式。human示例如下

GFF全称Generic Feature Format, 描述了基因组上各种特征的区间信息，包括染色体，基因，转录本等。GFF文件本质上是一个\t分隔的，共9列的纯文本文件。

1. column1

第一列是seqid, 代表序列ID, 通常是染色体的ID, 每条染色体拥有一个唯一的ID。

2. column2

第二列是source, 代表基因结构的来源，可以是数据库的名称，比如来自genebank数据库，也可以是软件的名称，比如用GeneScan软件预测得到，当然，也可以为空，用.点号填充。

3. column3

第三列是type, 代表区间对应的特征类型，比如gene, exon等。

4. column4

第四列是start, 代表区间的起始位置。

5. column5

第四列是end, 代表区间的终止位置。

6. column6

第六列是score, 软件提供了统计值，如果没有，就用.填充。

7. column7

第七列是strand, 代表正负链的信息, +表示正链，-表示负链，?表示不清楚正负链的信息，当正负链信息没有意义时，可以用.填充。

8. column8

第八列是phase，当描述的是CDS区间信息时，需要指定翻译时开始的位置，取值范围包括0,1,2。

9. column9

第九列是attributes, 表示属性，每种属性采用key=value 的形式，多个属性之间用;分号分隔。

下面看下NCBI提供的human的GFF文件，链接如下ftp://ftp.ncbi.nlm.nih.gov/genomes/H_sapiens/GFF/ref_GRCh38.p12_top_level.gff3.gz

在GFF文件的开头，可以有#开头的注释行,示例如下##gff-version 3

#!gff-spec-version 1.21

#!processor NCBI annotwriter

#!genome-build GRCh38.p12

#!genome-build-accession NCBI_Assembly:GCF_000001405.38

#!annotation-date 26 March 2018

#!annotation-source NCBI Homo sapiens Annotation Release 109

##sequence-region NC_000001.11 1 248956422

##species https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=9606

对于不同的基因组特征，其属性不同。

1. 染色体

染色体用region表示，1号染色体对应的信息如下NC_000001.11 RefSeq region 1 248956422 . + . ID=id0;Dbxref=taxon:9606;Name=1;chromosome=1;gbkey=Src;genome=chromosome;mol_type=genomic DNA

染色体是基础，后续的基因，exon等都是需要定位在染色体上的。

2. 非编码基因

对于非编码基因，首先给出基因的起始和终止位置，然后描述转录本的信息。对于转录本而言, 通过exon展示其结构。

假基因示例如下NC_000001.11 BestRefSeq pseudogene 11874

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
gff文件_GFF文件格式简介

鉴于代码的排版问题，建议在电脑上阅读本文。组装得到基因组的序列只是开展基因组研究的第一步，基因的结构是基因组后续功能研究的基石。在NCBI中，除了提供基因组序列外，还提供了基因结构的信息，采用的就是GFF格式。human示例如下GFF全称Generic Feature Format, 描述了基因组上各种特征的区间信息，包括染色体，基因，转录本等。GFF文件本质上是一个\t分隔的，共9列的纯文本文件...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。