数据质控
测序数据的产生经过了DNA提取、建库、测序等多个步骤,这些步骤会产生低质量或者无效的数据,需要对下机的原始数据进行质控。
1.原始序列数据解读
高通量测序得到的原始图像数据经过碱基识别(base calling)分析转化为原始测序序列(reads),我们称之为raw data,结果以fastq文件格式存储,该文件包含序列信息和序列的质量信息。一条read由4行描述:
第1行:以@开头,随后是Illumina测序标识符(sequence identifier)进而描述性文字(上机相关信息);
第2行:序列“ATCGN”,N指未识别碱基;
第3行:+
第4行:碱基的测序质量,与第2行对应。
!jk在这里插入图片描述
第四行数值换算方法是,每个字符对应的ASCII值-33,即为碱基质量值。
如果测序错误率用e表示,比如1/1000,Illumina Hiseq的剪接质量值用Q
全外显子组生信分析流程-4-数据质控
最新推荐文章于 2024-04-05 20:42:44 发布