NGS数据分析实践:03. 涉及的常用数据格式[3] - gtf/gff格式

NGS数据分析实践:03. 涉及的常用数据格式[3] - gtf/gff格式

系列文章
二代测序方法:DNA测序之靶向重测序
NGS数据分析实践:00. 变异识别的基本流程
NGS数据分析实践:01. Conda环境配置及软件安装
NGS数据分析实践:02. 参考基因组及注释库的下载
NGS数据分析实践:03. 涉及的常用数据格式[1] - fasta和fastq格式
NGS数据分析实践:03. 涉及的常用数据格式[2] - sam/bam格式

测序数据分析中涉及的常用格式:测序得到的是带有质量值的碱基序列(fastq格式),参考基因组是(fasta格式),用比对工具把fastq格式的序列比对到对应的fasta格式的参考基因序列,就可以产生sam格式的比对文件。把sam格式的文本文件压缩成二进制bam文件可以节省空间,如果对参考基因组上面的各个区段标记它们的性质,比如哪些区域是外显子、内含子、UTR等等,这就是gtf/gff格式。如果只是为了单纯描述某个基因组区域,就是bed格式文件,记录染色体号以及起始终止坐标,正负链即可。如果是记录某些位点或者区域碱基的变异,就是vcf文件格式。

fasta/fastq(测序数据)→SAM/BAM(比对)→gff/gtf(描述基因组上的结构:坐标&类型)→Bigwig/Wiggle(测序深度)→bed(描述坐标)→vcf(突变信息)

存储序列:fasta/fastq
比对结果显示的文件:sam/bam
展示注释信息:gtf/gff/bed
突变信息:vcf

3. gtf/gff格式

gtf主要用来注释基因,gff主要用来注释基因组。

3.1 gtf格式

GTF全称为gene transfer format,主要是用来对基因进行注释,常用GTF格式为第2版(GTF2)。

示例:
在这里插入图片描述
GTF文件是以tab键分割的9列组成,以下为每一列的对应信息:
在这里插入图片描述

3.2 gff格式

GFF全称为general feature format,这种格式主要是用来注释基因组,当前广泛使用的GFF格式为第3版(GFF3)。
在这里插入图片描述
GFF文件也是以tab键分割的9列组成,以下为每一列的对应信息:
在这里插入图片描述
预先定义的键主要包括
ID:注释信息的编号,在一个GFF文件中必须唯一;
name:注释信息的名称,可以重复;
Alias:别名;
Indicates:该注释所属的注释,值为注释信息的编号,比如外显子所属的转录组编号,转录组所属的基因的编号。
Parent指明feature所从属的上一级ID,用于将exons聚集成transcript,将transripts聚集成gene,值可以为多个;
Target 指明比对的目标区域,一般用于表明序列的比对结果。格式为 “target_id start end [strand] “,其中strand是可选的 (”+” 或 “-”),target_id中如果包含空格,则要转换成" "。
Gap:T比对结果的gap信息,和Target一起,用于表明序列的比对结果。
Dbxref:数据库索引。
……

3.3 GTF格式与GFF异同点

gtf2的内容和gff3很相似,区别只在其中的2列:

gtf2gff3
feature/type必须注明可以是任意名称
attributes名称和值以空格隔开名称和值以“=”隔开

其余文件格式见后续。

参考阅读:
http://genome.ucsc.edu/FAQ/FAQformat.html
生信宝典 NGS基础 - GTF/GFF文件格式解读和转换

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

hucy_Bioinfo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值