测序数据处理 —— 注释文件

测序数据处理 —— 注释文件

介绍

基因组注释文件主要标注了基因组特征信息,包含基因及转录本在基因组上的位置信息,比如编码区、外显子内含子以及 UTR 等。

我们可以根据这些文件来提取基因组对应的信息,常见的文件格式包括 GFFGTFBED

还有一种变异注释文件,用于记录和描述基因组中变异(如单核苷酸多态性(SNP)、插入和缺失(Indel)等)的详细信息及其功能注释。如 VCFGVF 等。

GTF/GFF

GFF (General Feature Format) 文件格式是一种用于描述基因以及 DNARNA 和蛋白质特征的文件格式。

GFF 有不同的版本和格式(GFF2GFF3GTF),但都使用制表符分隔,每行有 9 个字段。前 7 个字段的结构相同,但第 9 个字段的内容和格式会略有不同。

文件格式

最后一个字段使用键值对的形式表示,记录了基因的各种信息。例如:

##gff-version 3
#description: evidence-based annotation of the human genome (GRCh38), version 46 (Ensembl 112)
#provider: GENCODE
#contact: gencode-help@ebi.ac.uk
#format: gff3
#date: 2024-03-26
##sequence-region chr1 1 248956422
chr1    HAVANA  gene    11869   14409   .       +       .       ID=ENSG00000290825.1;gene_id=ENSG00000290825.1;gene_type=lncRNA;gene_name=DDX11L2;level=2;tag=overlaps_pseudogene
chr1    HAVANA  transcript      11869   14409   .       +       .       ID=ENST00000456328.2;Parent=ENSG00000290825.1;gene_id=ENSG00000290825.1;transcript_id=ENST00000456328.2;gene_type=lncRNA;gene_name=DDX11L2;transcript_type=lncRNA;transcript_name=DDX11L2-202;level=2;transcript_support_level=1;tag=basic,Ensembl_canonical;havana_transcript=OTTHUMT00000362751.1
chr1    HAVANA  exon    11869   12227   .       +       .       ID=exon:ENST00000456328.2:1;Parent=ENST00000456328.2;gene_id=ENSG00000290825.1;transcript_id=ENST00000456328.2;gene_type=lncRNA;gene_name=DDX11L2;transcript_type=lncRNA;transcript_name=DDX11L2-202;exon_number=1;exon_id=ENSE00002234944.1;level=2;transcript_support_level=1;tag=basic,Ensembl_canonical;havana_transcript=OTTHUMT00000362751.1

GTF

GTFGene Transfer Format)格式是

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

名本无名

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值