Fastq文件大小和测序覆盖度初探
王焕威 聚道科技GeneDock 2017-04-10
(本文由GeneDock公司 Bioinformatics Engineer 王焕威撰写,转载请保留作者信息和原文链接)
引 子
在二代测序(NGS)领域中,Fastq文件大小和测序深度(即测了多少乘)是两个常用的概念,但不同人给出的Fastq文件大小与测序深度的比例可能并不一致,而且之间的关系也一直模糊不清。
故,这篇博客就试图去探讨这两者的关系及其相关概念。
基本概念
1
Fastq文件的基本格式
Fastq文件是二代测序行业中常用的原始序列文件。每4行表示一个read(测序序列),其格式示例如下:
-
第一行:为序列ID
-
第二行:序列
-
第三行:固定为“+”
-
第四行:序列的质量值(quality score)
2
Fastq文件的序列ID行
对于Fastq文件中每个序列的ID行(首行),其格式并不统一,不同