fastq质量值_fastq 数据格式解析

概念介绍

Read 读段

Read 中文翻译: 读段,来自测序仪的raw data

一个Read 可能由多个片段组成, Read的索引是测序时的顺序

Sequencing quality 测序质量

测序仪在测序的时候,每次测出来的结果可能都不一样(仪器误差 序列长度等各方面因素), 所以往往需要多测几次,最后开决定是哪一个碱基。

592532f00b22?from=message&isappinstalled=0

Phred_Figure_1.jpg

Sequencing quality 是度量测序仪测序质量的指标。

测序质量指标有很多种 , 最常用的的是Phred quality score。

Sequencing quality metrics can provide important information

about the accuracy of each step in this process, including library

preparation, base calling, read alignment, and variant calling. Base

calling accuracy, measured by the Phred quality score (Q score), is the

most common metric used to assess the accuracy of a sequencing

platform. It indicates the probability that a given base is called

incorrectly by the sequencer.

Phred quanlity score 测序质量分数

概念

Q scores are used to measure base calling accuracy, one of the most

common metrics for assessing sequencing data quality. Low Q scores

can lead to increased false-positive variant calls, resulting in inaccurate

conclusions and higher costs for validation experiments.

测序质量分数

Q Phred quality scores

P base-calling-error probabilities

简单来说 Q越大 就说明测序质量越好

592532f00b22?from=message&isappinstalled=0

Paste_Image.png

592532f00b22?from=message&isappinstalled=0

Paste_Image.png

格式

不同的测序仪采用不同的测序标准, 取值范围不同

在存入Fastq格式的时候往往需要将数值转换为单个字符,要将数值范围映射到ASCII码上

对于每个碱基的质量编码标示,不同的软件采用不同的方案,目前有5种方案:

Sanger,Phred quality score,值的范围从0到92,对应的ASCII码从33到126,但是对于测序数据(raw read data)质量得分通常小于60,序列拼接或者mapping可能用到更大的分数。

Solexa/Illumina 1.0, Solexa/Illumina quality score,值的范围从-5到63,对应的ASCII码从59到126,对于测序数据,得分一般在-5到40之间;

Illumina 1.3+,Phred quality score,值的范围从0到62对应的ASCII码从64到126,低于测序数据,得分在0到40之间;

Illumina 1.5+,Phred quality score,但是0到2作为另外的标示,详见http://solexaqa.sourceforge.net/questions.htm#illumina

Illumina 1.8+

测序仪产生的数据格式

不同测序仪,不同版本号,产出的数据格式不一定相同

测序平台

文件格式

说明

454测序

FASTA / FASTAQ

Illumina/Solexa

FASTQ

SOLiD

CSFASTA / QV.qual质量文件

测序结果包含峰值

下面的这四行就是一行Read(这里我们以FASTQ格式为例)

fastq 格式说明

@HWI-ST507:4:75:4291:2239#0/1

AAGCTTGTTGAAGGCTACCAAAAACGATTACAAGCTGTAATTTCTGCTAAAG

+HWI-ST507:4:75:4291:2239#0/1

ggggegegfggggdgggg_ggcg\gfdYadddea]`cc_cc`c\[ed\^`]]

第一行: @文件识别标志 + Read ID

HWI-ST507:4:75:4291:2239#0/1

说明

数据

含义

说明

HWI-ST507

测序仪的唯一编号

-

4

测序通道

说明这批数据是在测序仪的第四通道测出来的

75

Read读长

代表每个Read的长度都是75bp

4291:2239

测序仪中的坐标数

#0

多样本测序时候的索引

#0 代表单样本测序

/1

每对paired-end 或者mate-pair的reads中的第一个

第二行:序列

第三行: + 文件标识标识 + Read ID

第三行的+后面的跟第一行相同, 可以省略, 但是+不可省略

第四行:质量分数

ggggegegfggggdgggg_ggcg\gfdYadddea]`cc_cc`c\[ed\^`]]

对应到到该仪器版本所采用过的phred标准,对应的ascall码范围求得整数质量分数值

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值