生物信息数据存放类型之——FASTQ

最新推荐文章于 2024-05-24 10:05:25 发布

ypfzhao

最新推荐文章于 2024-05-24 10:05:25 发布

阅读量7.4k

点赞数 3

分类专栏：生物信息

本文链接：https://blog.csdn.net/weixin_41481113/article/details/106503883

版权

生物信息专栏收录该内容

9 篇文章 17 订阅

订阅专栏

FASTQ

简介

FASTQ用于保存生物序列（通常是核酸序列）和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示，最初由Sanger开发。目的是将FASTA序列与质量数据放到一起，目前已经成为高通量测序结果的实施标准。

一、定义和示例

FASTQ文件中每个序列通常有四行：

第一行是序列标识以及相关的描述信息，以‘@’开头 
第二行是序列
第三行以‘+’开头，后面是序列标示符、描述信息，或者什么也不加，但是“+”不能少。
第四行，是质量信息，和第二行的序列相对应，每一个序列都有一个质量评分，根据评分体系的不同，每个字符的含义表示的数字也不相同。

一个简单的示例如下：

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

格式口诀：

 *‘@’开头引标识*
 *序列老二对老四*
 *老三没“+”不好使*
 *老四质量分数最多事*

二、序列标识

上面说到第一行是序列标识以及相关的描述信息，以‘@’开头。可以像上面的示例那么简单，但如果是正规测序仪下机的真实数据，通常会很复杂。比如：

@EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG

这个序列标识以及相关描述信息以冒号分割，每一个字段信息如下：

字段	解释
EAS139	the unique instrument name
136	the run id
FC706VJ	the flowcell id
2	flowcell lane
2104	tile number within the flowcell lane
15343	‘x’-coordinate of the cluster within the tile
197393	‘y’-coordinate of the cluster within the tile
1	the member of a pair, 1 or 2 (paired-end or mate-pair reads only)
Y	Y if the read fails filter (read is bad), N otherwise
18	0 when none of the control bits are on, otherwise it is an even number
ATCACG	index sequence

当然，上面的表格介绍的只是其中一个测序仪下机数据，如果是其它机器，产商可以自由定义标识符格式，因为fastq格式的第一行只需要以@符号开头即可。

不过，也有一些时候fastq数据并不是测序仪直接下机的，而且他人上传到了NCBI的SRA中心，我们下载下来解压后一般就没有了测序仪相关的标识，例子如下：

@SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36
GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC
+SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36
IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC

三、质量编码格式

质量评分指的是一个碱基的错误概率的对数值。其最初在Phred拼接软件中定义与使用，其后在许多软件中得到使用。其质量得分与错误概率的对应关系见下表：

PHRED QUALITY SCORE	PROBABILITY OF INCORRECT BASE CALL	BASE CALL ACCURACY
10	1 in 10	90 %
20	1 in 100	99%
30	1 in 1000	99.9%
40	1 in 10000	99.99%
50	1 in 100000	99.999%

Phred quality scores Q are defined as a property which is logarithmically related to the base-calling error probabilities P.
Q=-10lgP

除了Phred质量得分换算标准，还有就是Solexa标准：是把P换成p/(1-p)

对于每个碱基的质量编码标示，不同的软件采用不同的方案，目前有5种方案：

Sanger，Phred quality score，值的范围从0到92，对应的ASCII码从33到126，但是对于测序数据（raw read data）质量得分通常小于60，序列拼接或者mapping可能用到更大的分数。
Solexa/Illumina 1.0, Solexa/Illumina quality score，值的范围从-5到63，对应的ASCII码从59到126，对于测序数据，得分一般在-5到40之间。
Illumina 1.3+，Phred quality score，值的范围从0到62对应的ASCII码从64到126，低于测序数据，得分在0到40之间；
Illumina 1.5+，Phred quality score，但是0到2作为另外的标示。
Illumina 1.8+

四、文件后缀

没有特别的规定，通常使用.fq, .fastq, .txt等。但是要注意，这个文件格式主要指的是文本文件里面的每行每列的内容规则，并不是我们常见的计算机领域的mp3,mp4,avi,xls,doc等等。

其它注意事项:

双端测序一般有两个文件（也可通过某种规则把两个文件合并成一个）。
第一个文件与第二个文件的行数完全一样，且测序序列的排列顺序完全一致。
在第一个文件中，描述信息的结尾是“/1”，表示是双端测序的一端；第二个文件中同样位置/行数的相对应的测序序列的描述信息则以“/2”结尾，表示是双端测序的另一端。（2.2.2的表2-5中有叙述）

参考链接:

https://en.wikipedia.org/wiki/FASTQ_format

ypfzhao

关注

3
点赞
踩
36

收藏

觉得还不错? 一键收藏
1
评论
生物信息数据存放类型之——FASTQ

FASTQ简介FASTQ用于保存生物序列（通常是核酸序列）和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示，最初由Sanger开发。目的是将FASTA序列与质量数据放到一起，目前已经成为高通量测序结果的实施标准。一、定义和示例FASTQ文件中每个序列通常有四行：第一行是序列标识以及相关的描述信息，以‘@’开头第二行是序列第三行以‘+’开头，后面是序列标示符、描述信息，或者什么也不加，但是“+”不能少。第四行，是质量信息，和第二行的序列相对应，每一
复制链接

扫一扫

专栏目录