NGS数据分析实践：03. 涉及的常用数据格式[3] - gtf/gff格式

最新推荐文章于 2024-03-21 21:04:09 发布

hucy_Bioinfo

最新推荐文章于 2024-03-21 21:04:09 发布

阅读量1.1k

点赞数 2

分类专栏：基因组学文章标签：其他

本文链接：https://blog.csdn.net/qq_22253901/article/details/119638250

版权

基因组学专栏收录该内容

18 篇文章 80 订阅

订阅专栏

NGS数据分析实践：03. 涉及的常用数据格式[3] - gtf/gff格式

3. gtf/gff格式

系列文章：
二代测序方法：DNA测序之靶向重测序
NGS数据分析实践：00. 变异识别的基本流程
NGS数据分析实践：01. Conda环境配置及软件安装
NGS数据分析实践：02. 参考基因组及注释库的下载
NGS数据分析实践：03. 涉及的常用数据格式[1] - fasta和fastq格式
NGS数据分析实践：03. 涉及的常用数据格式[2] - sam/bam格式

测序数据分析中涉及的常用格式：测序得到的是带有质量值的碱基序列(fastq格式)，参考基因组是(fasta格式)，用比对工具把fastq格式的序列比对到对应的fasta格式的参考基因序列，就可以产生sam格式的比对文件。把sam格式的文本文件压缩成二进制bam文件可以节省空间，如果对参考基因组上面的各个区段标记它们的性质，比如哪些区域是外显子、内含子、UTR等等，这就是gtf/gff格式。如果只是为了单纯描述某个基因组区域，就是bed格式文件，记录染色体号以及起始终止坐标，正负链即可。如果是记录某些位点或者区域碱基的变异，就是vcf文件格式。

fasta/fastq(测序数据)→SAM/BAM(比对)→gff/gtf(描述基因组上的结构：坐标&类型)→Bigwig/Wiggle(测序深度)→bed(描述坐标)→vcf(突变信息)

存储序列：fasta/fastq
比对结果显示的文件：sam/bam
展示注释信息：gtf/gff/bed
突变信息：vcf

3. gtf/gff格式

gtf主要用来注释基因，gff主要用来注释基因组。

3.1 gtf格式

GTF全称为gene transfer format，主要是用来对基因进行注释，常用GTF格式为第2版(GTF2)。

示例：
在这里插入图片描述
GTF文件是以tab键分割的9列组成，以下为每一列的对应信息：

3.2 gff格式

GFF全称为general feature format，这种格式主要是用来注释基因组，当前广泛使用的GFF格式为第3版(GFF3)。
在这里插入图片描述
GFF文件也是以tab键分割的9列组成，以下为每一列的对应信息：

预先定义的键主要包括：
ID：注释信息的编号，在一个GFF文件中必须唯一；
name：注释信息的名称，可以重复；
Alias：别名；
Indicates：该注释所属的注释，值为注释信息的编号，比如外显子所属的转录组编号，转录组所属的基因的编号。
Parent指明feature所从属的上一级ID，用于将exons聚集成transcript，将transripts聚集成gene，值可以为多个；
Target 指明比对的目标区域，一般用于表明序列的比对结果。格式为 “target_id start end [strand] “，其中strand是可选的 (”+” 或 “-”)，target_id中如果包含空格，则要转换成" "。
Gap：T比对结果的gap信息，和Target一起，用于表明序列的比对结果。
Dbxref：数据库索引。
……

3.3 GTF格式与GFF异同点

gtf2的内容和gff3很相似，区别只在其中的2列：

	gtf2	gff3
feature/type	必须注明	可以是任意名称
attributes	名称和值以空格隔开	名称和值以“=”隔开

其余文件格式见后续。

参考阅读：
http://genome.ucsc.edu/FAQ/FAQformat.html
生信宝典 NGS基础 - GTF/GFF文件格式解读和转换

hucy_Bioinfo

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
NGS数据分析实践：03. 涉及的常用数据格式[3] - gtf/gff格式

把sam格式的文本文件压缩成二进制bam文件可以节省空间，如果对参考基因组上面的各个区段标记它们的性质，比如哪些区域是外显子、内含子、UTR等等，这就是gtf/gff格式。
复制链接

扫一扫