测序数据质量控制

本文介绍了基于Illumina HiSeq2500测序平台的测序数据质量控制流程,包括理解FASTQ格式,评估碱基质量值(Q-score),去除接头和低质量数据,以及通过TopHat2进行转录组数据与参考基因组的比对,以确保后续分析的准确性。同时,文章阐述了如何通过比对效率和覆盖深度分布图来评估数据质量和基因组比对效果。
摘要由CSDN通过智能技术生成

  基于边合成边测序(Sequencing By Synthesis,SBS)技术,Illumina HiSeq2500高通量测序平台对cDNA文库进行测序,能够产出大量的高质量Reads,测序平台产出的这些Reads或碱基称为原始数据(Raw Data),其大部分碱基质量打分能达到或超过Q30。Raw Data通常以FASTQ格式提供,每个测序样品的Raw Data包括两个FASTQ文件,分别包含所有cDNA片段两端测定的Reads。

FASTQ格式文件示意图如下:

 

FASTQ格式文件示意图

注:FASTQ文件中通常每4行对应一个序列单元:第一行以@开头,后面接着序列标识(ID)以及其它可选的描述信息第二行为碱基序列,即Reads第三行以“+”开头,后面接着可选的描述信息第四行为Reads每个碱基对应的质量打分编码,长度必须和Reads的序列长度相同

  •  测序碱基质量值

碱基质量值(Quality Score或Q-score)是碱基识别(Base Calling)出错的概率的整数映射。通常使用的Phred碱基质量值公式为:

 

公式中,P为碱基识别出错的概率。下表给出了碱基质量值与碱基识别出错的概率的对应关系:

表1 碱基质量值与碱基识别出错的概率的对应关系表

<

Phred Quality Score

Probability of Incorrect Base Call

Base Call Accuracy

Q10

1/10

90%

Q20

1/100

99%

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值