测序数据质量控制

最新推荐文章于 2024-02-22 11:33:25 发布

weixin_30251829

最新推荐文章于 2024-02-22 11:33:25 发布

阅读量5.5k

点赞数

原文链接：http://www.cnblogs.com/daimakun/p/5092312.html

版权

本文介绍了基于Illumina HiSeq2500测序平台的测序数据质量控制流程，包括理解FASTQ格式，评估碱基质量值（Q-score），去除接头和低质量数据，以及通过TopHat2进行转录组数据与参考基因组的比对，以确保后续分析的准确性。同时，文章阐述了如何通过比对效率和覆盖深度分布图来评估数据质量和基因组比对效果。

摘要由CSDN通过智能技术生成

　　基于边合成边测序（Sequencing By Synthesis，SBS）技术，Illumina HiSeq2500高通量测序平台对cDNA文库进行测序，能够产出大量的高质量Reads，测序平台产出的这些Reads或碱基称为原始数据（Raw Data），其大部分碱基质量打分能达到或超过Q30。Raw Data通常以FASTQ格式提供，每个测序样品的Raw Data包括两个FASTQ文件，分别包含所有cDNA片段两端测定的Reads。

FASTQ格式文件示意图如下：

FASTQ格式文件示意图

注：FASTQ文件中通常每4行对应一个序列单元：第一行以@开头，后面接着序列标识（ID）以及其它可选的描述信息；第二行为碱基序列，即Reads；第三行以“+”开头，后面接着可选的描述信息；第四行为Reads每个碱基对应的质量打分编码，长度必须和Reads的序列长度相同。

测序碱基质量值

碱基质量值（Quality Score或Q-score）是碱基识别（Base Calling）出错的概率的整数映射。通常使用的Phred碱基质量值公式为：

公式中，P为碱基识别出错的概率。下表给出了碱基质量值与碱基识别出错的概率的对应关系：

表1 碱基质量值与碱基识别出错的概率的对应关系表

<

Phred Quality Score	Probability of Incorrect Base Call	Base Call Accuracy
Q10	1/10	90%
Q20	1/100	99%

最低0.47元/天解锁文章

weixin_30251829

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。