fasta与fastaq的区别以及格式转换

本文介绍了测序质量值,重点讨论了fastq和fasta两种生物信息学序列格式。fastq包含序列及其质量值,广泛用于高通量测序数据存储。fasta仅存储序列信息。文中还涵盖了质量值的ASCII编码、fastq的四行结构、fastq文件的处理方法,包括过滤、转换、排序和抽样。此外,还讨论了fasta格式的结构和转换fastq到fasta的方法。
摘要由CSDN通过智能技术生成

1)测序质量值

        首先在了解fastq,fasta之前,了解一下什么是质量值。Phred 功能是处理测序仪直接生成的色谱图,给出相应的碱基和质量值。不同的测序仪会给出不同的色谱文件,Phred 能够识别三种格式的色谱文件,SCF, ABI 和预先处理的 ESD 格式。 碱基的测序质量值 Q 和此碱基出错的概率 Pe 相关。公式:Q = -10 log10( Pe )。phred软件在对reads进行base calling的时候会给出每一个碱基的质量值,这个质量值的计算与测序预期错误率相关(estimated probability of error):

 Phred Quality Score     Probability of incorrect base call      Base call accuracy
         10                              1 in 10                        90 %              
         20                             1 in 100                        99 %              
         30                             1 in 1000                       99.9 %            
         40                             1 in 10000                      99.99 %           
         50                             1 in 100000                     99.999 %  

除此之外还有solexa标准,即将p换成了p/(1-p),其他完全按照sanger的定义来做。当测序质量很高的情况下两种形式几乎没区别,但低质量的碱基则有区别了(如图)

                                 

  Qscore与p之间的关系,其中红线表示Q=-10 log10p标准,黑色实线表示Q=-10 log10p/(1-p)标准。

1.1)ACII码

为了方便储存及可读这些信息,利用可打印的ACII码将这些质量值转化为单字符single characters (or bytes)。ASCII 字符集,最基本的包含了128 个字符。其中前 32 个, 0-31 ,即 0x00-0x1F ,都是不可见字符,这些字符,为控制字符。可见字符为32–126。sanger-fastaq格式用 ASCII 33–126 来表示phred 质量值 0 到93 。举例来说:一般地,碱基质量从0-40,既ASCii码为从 “!”(0+33)到“I”(40+33)。如果某碱基测序出错的概率为0.001,则Q应该为30。则30+33=63,那么63对应的ASCii码为“?”,在第四行中该碱基对应的质量代表值即为“?”。 

                                                                                         

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值