测序数据处理 —— 注释文件
介绍
基因组注释文件主要标注了基因组特征信息,包含基因及转录本在基因组上的位置信息,比如编码区、外显子内含子以及 UTR
等。
我们可以根据这些文件来提取基因组对应的信息,常见的文件格式包括 GFF
、GTF
和 BED
。
还有一种变异注释文件,用于记录和描述基因组中变异(如单核苷酸多态性(SNP
)、插入和缺失(Indel
)等)的详细信息及其功能注释。如 VCF
或 GVF
等。
GTF/GFF
GFF
(General Feature Format) 文件格式是一种用于描述基因以及 DNA
、RNA
和蛋白质特征的文件格式。
GFF
有不同的版本和格式(GFF2
、 GFF3
和 GTF
),但都使用制表符分隔,每行有 9
个字段。前 7
个字段的结构相同,但第 9
个字段的内容和格式会略有不同。
文件格式
最后一个字段使用键值对的形式表示,记录了基因的各种信息。例如:
##gff-version 3
#description: evidence-based annotation of the human genome (GRCh38), version 46 (Ensembl 112)
#provider: GENCODE
#contact: gencode-help@ebi.ac.uk
#format: gff3
#date: 2024-03-26
##sequence-region chr1 1 248956422
chr1 HAVANA gene 11869 14409 . + . ID=ENSG00000290825.1;gene_id=ENSG00000290825.1;gene_type=lncRNA;gene_name=DDX11L2;level=2;tag=overlaps_pseudogene
chr1 HAVANA transcript 11869 14409 . + . ID=ENST00000456328.2;Parent=ENSG00000290825.1;gene_id=ENSG00000290825.1;transcript_id=ENST00000456328.2;gene_type=lncRNA;gene_name=DDX11L2;transcript_type=lncRNA;transcript_name=DDX11L2-202;level=2;transcript_support_level=1;tag=basic,Ensembl_canonical;havana_transcript=OTTHUMT00000362751.1
chr1 HAVANA exon 11869 12227 . + . ID=exon:ENST00000456328.2:1;Parent=ENST00000456328.2;gene_id=ENSG00000290825.1;transcript_id=ENST00000456328.2;gene_type=lncRNA;gene_name=DDX11L2;transcript_type=lncRNA;transcript_name=DDX11L2-202;exon_number=1;exon_id=ENSE00002234944.1;level=2;transcript_support_level=1;tag=basic,Ensembl_canonical;havana_transcript=OTTHUMT00000362751.1
GTF
GTF
(Gene Transfer Format
)格式是