fastq质量值_FASTQ格式解释和质量评估

本文详细介绍了FASTQ文件格式,包括单端和双端测序的命名规则,以及如何检查文件的完整性。内容涵盖FASTQ文件的内容结构、质量值计算原理、测序量评估方法,如通过行数计算reads数和碱基数。此外,还讨论了测序质量评估工具FastQC的使用及其结果解读,包括碱基质量、GC含量和接头序列的分析,强调了质量差的样本可能需要预处理。
摘要由CSDN通过智能技术生成

FASTQ文件格式和命名

高通量测序之后用于下游分析的数据一般存储在FASTQ文件中。为了节省空间,又不影响下游使用,也一般用gzip压缩的格式。

单端测序每个文库只返回一个FASTQ文件,双端测序两个FASTQ文件,左端一般命名为_1或R1,右端命名为_2或R2。

假如样品名字为ehbio,双端测序三个重复。习惯命名为ehbio_1_1.fq.gz ehbio_1_2.fq.gz,  ehbio_2_1.fq.gz ehbio_2_2.fq.gz,  ehbio_3_1.fq.gz ehbio_3_2.fq.gz. (第一个下划线后面的数字为重复,第二个下划线后面的数字指定哪一端)

FASTQ文件内容如下图所示:9c597a3a464fecef6188668534540251.png第一行以@开头,后面是reads的ID以及其他信息。

第二行为read的序列。

第三行以+开头,一般后面没有内容;若有则为序列的名字,与第一行相同。

第四行代表reads的质量值。质量值的计算方式为  (e是错误率,estimated probability of the base call being wrong)。如果该碱基测序出错的概率(e)为0.001,则Q应该为30。现在测序数据多采用Phred33编码,那么30+33=63,那么63对应的ASCii码为?,则在第四行中该碱基对应的质量代表值即为?。一般地,碱基质量从0-40, 即ASCii码为从 !(0+33)到I(40

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值