linux怎么查看fastq格式文件,2020-01-11 了解FASTQ格式并处理FASTQ文件

本文详细介绍了FASTQ文件格式,包括其四部分结构、质量编码和错误率公式。讨论了如何在Linux环境中查看FASTQ文件,特别是通过seqtk工具进行质量编码转换。此外,还分享了如何利用SeqKit进行FASTQ文件的统计、GC含量计算、抽样、检索、查找简并碱基以及去除重复序列等高级操作。
摘要由CSDN通过智能技术生成

FASTQ文件格式是测序仪展示数据的标准格式,可以看成FASTA文件的变种(FASTA+Q),因为其包含了对序列中每个碱基的Qualify Measurement。(如:碱基A出错的可能性是1/1000)

FASTQ格式详述

FASTQ格式包括4个部分,每个部分1行,格式同FASTA相似,但缺陷也更多:

类似FASTA的头部,以@而非>起始,后跟ID和描述文本

测定的序列,通常为1行,但有时也会换行,最后以+指示下一部分

由+表示(后面有时会跟着和第一部分相同的id和header)

编码第2部分测定序列的质量值,长度必须同第2部分相同,换行方式也要同第2部分相同

56ddd59502c6

第4部分看着有点奇怪,其实是通过转码将两位数字的Phred Score转换为1个字符的Quality Score

第一行为FASTQ quality codes

第二行为Quality Score (Q)/Phred Score (P)

56ddd59502c6

Sanger(+33)格式

错误率公式:Error=10ˆ(-P/10)

56ddd59502c6

编码为I,P=40,错误率为10^(-40/10)=0.01%

56ddd59502c6

以前还用过一种老的+64格式的FASTQ编码:

56ddd59502c6

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值