生物信息数据存放类型之——FASTQ

FASTQ

简介

FASTQ用于保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。 其序列以及质量信息都是使用一个ASCII字符标示,最初由Sanger开发。 目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的实施标准。

一、定义和示例

FASTQ文件中每个序列通常有四行:

第一行是序列标识以及相关的描述信息,以‘@’开头 
第二行是序列
第三行以‘+’开头,后面是序列标示符、描述信息,或者什么也不加,但是“+”不能少。
第四行,是质量信息,和第二行的序列相对应,每一个序列都有一个质量评分,根据评分体系的不同,每个字符的含义表示的数字也不相同。

一个简单的示例如下:

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

格式口诀:

 *‘@’开头引标识*
 *序列老二对老四*
 *老三没“+”不好使*
 *老四质量分数最多事*

二、序列标识

上面说到第一行是序列标识以及相关的描述信息,以‘@’开头。可以像上面的示例那么简单,但如果是正规测序仪下机的真实数据,通常会很复杂。比如:

@EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG

这个序列标识以及相关描述信息以冒号分割,每一个字段信息如下:

字段解释
EAS139the unique instrument name
136the run id
FC706VJthe flowcell id
2flowcell lane
2104tile number within the flowcell lane
15343‘x’-coordinate of the cluster within the tile
197393‘y’-coordinate of the cluster within the tile
1the member of a pair, 1 or 2 (paired-end or mate-pair reads only)
YY if the read fails filter (read is bad), N otherwise
180 when none of the control bits are on, otherwise it is an even number
ATCACGindex sequence

当然,上面的表格介绍的只是其中一个测序仪下机数据,如果是其它机器,产商可以自由定义标识符格式,因为fastq格式的第一行只需要以@符号开头即可。

不过,也有一些时候fastq数据并不是测序仪直接下机的,而且他人上传到了NCBI的SRA中心,我们下载下来解压后一般就没有了测序仪相关的标识,例子如下:

@SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36
GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC
+SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36
IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC

三、质量编码格式

质量评分指的是一个碱基的错误概率的对数值。 其最初在Phred拼接软件中定义与使用,其后在许多软件中得到使用。 其质量得分与错误概率的对应关系见下表:

PHRED QUALITY SCOREPROBABILITY OF INCORRECT BASE CALLBASE CALL ACCURACY
101 in 1090 %
201 in 10099%
301 in 100099.9%
401 in 1000099.99%
501 in 10000099.999%
Phred quality scores Q are defined as a property which is logarithmically related to the base-calling error probabilities P.
Q=-10lgP

除了Phred质量得分换算标准,还有就是Solexa标准:是把P换成p/(1-p)

对于每个碱基的质量编码标示,不同的软件采用不同的方案,目前有5种方案:

  1. Sanger,Phred quality score,值的范围从0到92,对应的ASCII码从33到126,但是对于测序数据(raw read data)质量得分通常小于60,序列拼接或者mapping可能用到更大的分数。
  2. Solexa/Illumina 1.0, Solexa/Illumina quality score,值的范围从-5到63,对应的ASCII码从59到126,对于测序数据,得分一般在-5到40之间。
  3. Illumina 1.3+,Phred quality score,值的范围从0到62对应的ASCII码从64到126,低于测序数据,得分在0到40之间;
  4. Illumina 1.5+,Phred quality score,但是0到2作为另外的标示。
  5. Illumina 1.8+

四、文件后缀

没有特别的规定,通常使用.fq, .fastq, .txt等。 但是要注意,这个文件格式主要指的是文本文件里面的每行每列的内容规则,并不是我们常见的计算机领域的mp3,mp4,avi,xls,doc等等。

其它注意事项:

  • 双端测序一般有两个文件(也可通过某种规则把两个文件合并成一个)。
  • 第一个文件与第二个文件的行数完全一样,且测序序列的排列顺序完全一致。
  • 在第一个文件中,描述信息的结尾是“/1”,表示是双端测序的一端;第二个文件中同样位置/行数的相对应的测序序列的描述信息则以“/2”结尾,表示是双端测序的另一端。(2.2.2的表2-5中有叙述)

参考链接:

https://en.wikipedia.org/wiki/FASTQ_format

©️2020 CSDN 皮肤主题: 技术黑板 设计师:CSDN官方博客 返回首页