NGS数据分析实践:03. 涉及的常用数据格式[3] - gtf/gff格式
系列文章:
二代测序方法:DNA测序之靶向重测序
NGS数据分析实践:00. 变异识别的基本流程
NGS数据分析实践:01. Conda环境配置及软件安装
NGS数据分析实践:02. 参考基因组及注释库的下载
NGS数据分析实践:03. 涉及的常用数据格式[1] - fasta和fastq格式
NGS数据分析实践:03. 涉及的常用数据格式[2] - sam/bam格式
测序数据分析中涉及的常用格式:测序得到的是带有质量值的碱基序列(fastq格式),参考基因组是(fasta格式),用比对工具把fastq格式的序列比对到对应的fasta格式的参考基因序列,就可以产生sam格式的比对文件。把sam格式的文本文件压缩成二进制bam文件可以节省空间,如果对参考基因组上面的各个区段标记它们的性质,比如哪些区域是外显子、内含子、UTR等等,这就是gtf/gff格式。如果只是为了单纯描述某个基因组区域,就是bed格式文件,记录染色体号以及起始终止坐标,正负链即可。如果是记录某些位点或者区域碱基的变异,就是vcf文件格式。
fasta/fastq
(测序数据)→SAM/BAM
(比对)→gff/gtf
(描述基因组上的结构:坐标&类型)→Bigwig/Wiggle
(测序深度)→bed
(描述坐标)→vcf
(突变信息)
存储序列:fasta/fastq
比对结果显示的文件:sam/bam
展示注释信息:gtf/gff/bed
突变信息:vcf
3. gtf/gff格式
gtf
主要用来注释基因,gff
主要用来注释基因组。
3.1 gtf格式
GTF
全称为gene transfer format
,主要是用来对基因进行注释,常用GTF格式为第2版(GTF2)。
示例:
GTF文件是以tab键分割的9列组成,以下为每一列的对应信息:
3.2 gff格式
GFF
全称为general feature format
,这种格式主要是用来注释基因组,当前广泛使用的GFF格式为第3版(GFF3)。
GFF文件也是以tab键分割的9列组成,以下为每一列的对应信息:
预先定义的键主要包括:
ID:注释信息的编号,在一个GFF文件中必须唯一;
name:注释信息的名称,可以重复;
Alias:别名;
Indicates:该注释所属的注释,值为注释信息的编号,比如外显子所属的转录组编号,转录组所属的基因的编号。
Parent指明feature所从属的上一级ID,用于将exons聚集成transcript,将transripts聚集成gene,值可以为多个;
Target 指明比对的目标区域,一般用于表明序列的比对结果。格式为 “target_id start end [strand] “,其中strand是可选的 (”+” 或 “-”),target_id中如果包含空格,则要转换成" "。
Gap:T比对结果的gap信息,和Target一起,用于表明序列的比对结果。
Dbxref:数据库索引。
……
3.3 GTF格式与GFF异同点
gtf2的内容和gff3很相似,区别只在其中的2列:
gtf2 | gff3 | |
---|---|---|
feature/type | 必须注明 | 可以是任意名称 |
attributes | 名称和值以空格隔开 | 名称和值以“=”隔开 |
其余文件格式见后续。
参考阅读:
http://genome.ucsc.edu/FAQ/FAQformat.html
生信宝典 NGS基础 - GTF/GFF文件格式解读和转换