基于边合成边测序(Sequencing By Synthesis,SBS)技术,Illumina HiSeq2500高通量测序平台对cDNA文库进行测序,能够产出大量的高质量Reads,测序平台产出的这些Reads或碱基称为原始数据(Raw Data),其大部分碱基质量打分能达到或超过Q30。Raw Data通常以FASTQ格式提供,每个测序样品的Raw Data包括两个FASTQ文件,分别包含所有cDNA片段两端测定的Reads。
FASTQ格式文件示意图如下:
FASTQ格式文件示意图
注:FASTQ文件中通常每4行对应一个序列单元:第一行以@开头,后面接着序列标识(ID)以及其它可选的描述信息;第二行为碱基序列,即Reads;第三行以“+”开头,后面接着可选的描述信息;第四行为Reads每个碱基对应的质量打分编码,长度必须和Reads的序列长度相同。
- 测序碱基质量值
碱基质量值(Quality Score或Q-score)是碱基识别(Base Calling)出错的概率的整数映射。通常使用的Phred碱基质量值公式为:
公式中,P为碱基识别出错的概率。下表给出了碱基质量值与碱基识别出错的概率的对应关系:
表1 碱基质量值与碱基识别出错的概率的对应关系表
Phred Quality Score |
Probability of Incorrect Base Call |
Base Call Accuracy |
Q10 |
1/10 |
90% |
Q20 |
1/100 |
99% | <