solid平台测序在目前已经不常见了,但是,很不幸的是我第一次下载Reads就遇上了。所以,在网上搜集了很多资料,在此整理了一下。
首先,solid测序结果他是color space 编码,不是普通的ATCG四个碱基编码,所以在格式上就不相同。
它是四行为一条read,从@行开始到!行结束,第一行代表编号,第二行代表序列,第三行代表附加信息,第四行代表质量报告。
其次,color space不允许转为base space数据!
最后,在将sra格式文件转为fastq格式时,是使用abi-dump解压,而且也是只能转为csfastq格式,但是,此格式也是可以适应很多软件,fastqc,cutadap,SHRiMP,sequel和BFAST ,bowtie等等。
如果,非要转化呢?这里也提供了一种方法:
使用一个perl脚本将其转化,具体做法请查看:
https://davetang.org/muse/2012/07/04/from-sra-to-fastq-for-solid-data/
http://www.bio-info-trainee.com/1850.html
同时这里还有一个网址,清楚的讲述了color space编码(大家感兴趣可以去看看):
http://seqanswers.com/forums/showpost.php?p=59156&postcount=4
但是,我觉得最好是不转化,因为它也是可以使用BFAST和bowtie比对软件,比对之后得到的sam文件或bam文件应该与illumina测序的通过BWA得到的sam文件一样的。当然这个还有待于进一步尝试!