一、格式介绍
(一)gtf文件。GTF 为General Transfer Format缩写,跟 GFF2格式类似。相信大家做转录组分析时候经常会看到Cufflinks或者Stringtie软件对转录组进行定量与组装会时产生一个gtf文件,里面包含的信息如下:
每列信息的含义如下:seqname- 序列的ID,可以是染色体的ID也可以是Scaffold或者Contig的ID。
source- 产生此文件的软件,如Stringtie产生的则为Stringtie,CUfflinks产生的则为Cufflinks,不知道的使用点 “.” 表示。
feature- 后面start和end之间区域代表的特征,如果此区域是基因,则此处为gene,如果是外显子,则为exon,如果是转录本,则为transcript,如果是非编码RNA则为lncRNA,如果是重复序列,则为TE,等等,主要表明这一块区域的特征。
start-上述feature的在序列上的起始位置。
end- 上述feature的在序列上的终止位置。
score- 一个浮点数值,也可以为点 “.” 。有值的时候代表上述feature的可靠
性。因为无论是gene还是mRNA,都是基于预测差生的,因而必然会有一个值来衡量预测准确性。
strand- + (forward)或者 - (reverse),代表上述feature是位于正链还是负链上。
frame- 内含子相位,只能为'0', '1' or '2