linux怎么查看fastq格式文件,fastq格式文件处理大全(一)

从计算机的角度来说,生物的序列属于一种字符串,也是一种文本,因此生物信息分析属于文本处理范畴。文本存储为固定格式文件,生物信息的工作就是各种文本文件之间格式的转换,例如通过序列拼接将fastq转换为fasta,通过短序列比对将fastq与fasta合并为bam,通过变异检测将bam中突变位点提取出来转换为vcf。因此,我们可以通过总结每一种生物数据文件格式的处理方法来学习生物信息,这样当拿到固定格式的文件之后,就知道该如何来处理了。

167771883_1_20190806071838363

fastq格式介绍

fastq格式是一种包含质量值的序列文件,其中的q为quality,一般用来存储原始测序数据,扩展名一般为fastq或者fq。目前illumina测序,BGISEQ,Ion Torrent,pacbio,nanopore都以fastq格式存储测序数据,其中illumina,BGISEQ一般是双末端测序,一般是一对文件,命名为*_R1.fq.gz与*_R2.fq.gz。下面是fastq格式常见的序列格式。

@FCD056DACXX:3:1101:2163:1959#TCGCCGTG/1

TCCGATAACGCTCAACCAGAGGGCTGCCAGCTCCGATCGGCAGTTGCAACCCATTGGCCGTCTGAGCCAGCAACCCCGGA

+

gggiiiiiiiiiiiiiiiiiiiiiiiiiigggggeeecccccc^bcbcccccccbccccc]aaccbbccc^R^^acccc_

@FCD056DACXX:3:1101:2194:1984#TCGCCGTG/1

AGACGACGACTTCGTTTCCCGCCGCGAGTTGCGCCATGATCGCGGTGTGCAGATTCGTTACGCCCTGGGCCACGGAGACG

+

gggiihiiiiiiiihiiiiiiiiiigeccccccccccccccccccaccccdcccccccccccacc_accccccccccV^^

第一行:以‘@’开头,是这一条read的名字,这个字符串是根据测序时的状态信息转换过来的,中间不会有空格,它是每一条read的唯一标识符,同一份FASTQ文件中不会重复出现,甚至不同的FASTQ文件里也不会有重复;

第二行:测序read的序列,由A,C,G,T和N这五种字母构成,这也是我们真正关心的DNA序列,N代表的是测序时那些无法被识别出来的碱基;

第三行:以‘+’开头,在旧版的FASTQ文件中会直接重复第一行的信息,但现在一般什么也不加(节省存储空间);

第四行:测序read的质量值,这个和第二行的碱基信息一样重要,它描述的是每个测序碱基的可靠程度,用ASCII码表示。

质量值

上面提到fastq格式中的q代表质量值,因此fastq格式中质量值具有重要的作用,在很多的分析中会用到这个质量值,例如数据质控,数据过滤,序列拼接,短序列比对,变异检测中都要用到这个质量值。

这个质量值是基于phred质量值体系,但是由于单个碱基无法与两位的质量值相匹配,例如A碱基对应的质量值为40,一个A字符对应两个字符40,因此需要将原始质量值加上33或者64,在转换为对应的ASCII码值,为何加33,因为33以下ASCII码无法用键盘字符表示出来。illumina测序1.8版本以上加33,以下加64。

167771883_2_20190806071838519

获取fastq文件

可以直接拿DNA,选择合适的测序方式,就可以得到fastq格式文件,无论人,动物,植物,微生物,测序的是全基因组,还是外显子,捕获序列,抑或是RNA样本,FFPE样本最终得到的都是fatsq格式文件。注意,有些平台得到的是两个文件,reads1与reads2,有些平台得到的是一个文件。如何自己没有测序,也可以在NCBI SRA数据库下载测序文件,使用sratools工具中的prefetch或者fastq-dump软件都可以下载fastq文件。prefetch SRR8651554

将sra转为为fastq

利用fastq-dump文件可以将sra文件直接转换为fastq格式,注意,如果是illumina的双末端测序,需要添加 --split-files选项,如果需要压缩格式,需要添加 --gzip选项。最终会生成SRR8651554_1.fastq.gz,SRR8651554_2.fastq.gz两个文件。

fastq-dump --split-files --gzip ~/ncbi/public/sra/SRR8651554.sra

压缩与解压缩

目前绝大部分的软件都可以直接处理压缩格式,因此一般的fastq格式都是压缩格式呈现的,扩展名为fq.gz,如果需要压缩或者解压缩可以使用以下命令。#解压缩

gunzip SRR8651554_1.fastq.gz

gzip -d  SRR8651554_2.fastq.gz

#压缩

gzip SRR8651554_1.fastq

gzip SRR8651554_2.fastq

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值