给GFF3格式文件添加fasta格式
是不是没见过带有序列的gff3格式。为啥这么做,这就要说到我最近在做的东西了。Jbrowse是一款基因组可视化浏览器。可以将基因组可视化以及大部分以基因组为基础的可视化,比如reads、SNP、QTL、GWAS、gene。支持fasta,bam,vcf,gff3等格式文件。说了这么多,给个实例,自己慢慢体会。同时附上官网地址和Genome Biology上的论文。
优点就是:A fast, embeddable genome browser built with HTML5 and JavaScript。缺点的话相比GBrowse来说就是对比较基因组学的结果展示不是太好。
顺带介绍一款与Jbrowse具有相似功能的新软件,Pbrowse。感兴趣的可以自行脑补知识点。
为什么可视化?这就不得不说我所在的实验室。我导师虽说可以招收生物信息学博士,但是做遗传出身的,生物信息不是实验室的主要方向。现在我们实验室专门做生物信息的就俩人。一个是南大新来的小袁老师,另一个就是我。实验室主要的方向是做图位克隆。我们所做的一些工作也要服务于这一方向。老板应该属于早期生物信息学者,对二代测序的东西不是很熟悉也不相信。比如,老板比较相信EST序列,一个A基因有1条EST序列支持,另外一个B基因没有EST支持。但是从RNA_seq结果来看,B基因比A基因表达高10倍。老板非得说,RNA_seq不对,还要求查看原始的reads。看也可以,但是IGV这类的软件他也不用,他只用macvector,于是我花了很大的功夫整成macvector格式给他看。当然,看完也就那样,这种反常也正常,120万条EST只有1条EST支持,说明基因表达水平本来就低,那1条可能就是随机出现的。有些基因如果只有RNA_seq支持,没有EST支持,那么他认为这个基因几乎就不可信。实验室30多号生物信息薄弱患者,大部分人的区间不一样,关心的数据不一样,该如何让他们更容易的使用这些已发表的生物信息资源?于是我看到了Jbrowse,数据整理好在线可视化,对于我们俩来说是一种解放。
叨叨这么多,言归正传。gff3格式导入进Jbrowse,通过点击左键不能获得全长transcript序列,所以就想到加一个fasta标签就可以了。当然gff3格式还可以加入其它信息,比如功能注释的信息。
GFF3格式如下:
chr1A StringTie transcript 440 10829 1000.00 + . ID=CS_RNA_seq.10.141;geneID=CS_RNA_seq.10
chr1A StringTie exon 440 1269 1000.00 + . Parent=CS_RNA_seq.