生物信息学中两种常用的文本文件

通过自学《碱基矿工》
[http://mp.weixin.qq.com/mp/homepage?__biz=MzAxOTUxOTM0Nw==&hid=1&sn=d945cf61bd86e85724e146df42af5bcc&scene=18#wechat_redirect]
下面分别介绍这两种格式

FASTA

FASTA常作为存储有顺序的序列数据的文件后缀,包括我们常用的参考基因组序列、蛋白质序列、编码DNA序列(coding DNA sequence,CDS)、转录本序列等文件。后缀常用.fasta,也有用.fa 或 .fa.gz (gz压缩) 。
FASTA文件主要有两个部分:

  1. 序列头信息(有时包括一些其他描述信息):头信息独占一行,以(>)开头作为识别标记,除了记录该序列的名字以外,有时还会接上其他信息。

  2. 具体的序列数据:紧接头信息下一行,直到另外一行碰到另一个(>)开头的新序列或者文件末尾。

    ( 图为人类名为EGFR基因的部分序列)图为人类名为EGFR基因的部分序列

FASTQ

这是目前存储测序数据最普遍的一个数据格式,另一种为uBam格式。不同于FASTA的已排列好序列,FASTQ存的是产生自测序仪的原始测序数据,由测序图像数据转换过来。文件后缀通常是.fastq 、.fq或者.fq.gz (gz压缩)在这里插入图片描述
由图可知,它有自己独特的格式:每四行为一个独立单元称作read。具体格式如下:

  1. 第一行:@开头,是这一条read的名字,它是每一条read唯一标识符
  2. 第二行:碱基序列,其中,N代表测序时那些无法被识别的碱基
  3. 第三行:+,现在+之后往往什么都没有
  4. 第四行:read的质量值,描述碱基的测序准确可靠程度,以ASCII码表示。

这里引出质量值的概念:碱基质量值指用定量描述碱基好坏程度的数值。即用碱基被测错的概率来描述,错误率越低,质量值越高在这里插入图片描述
之所以使用ASCII码表示,也是为了格式存储和处理时方便,使得第二行的read碱基序列和第四行的每一个ASCII码能够一一对应。不过,值得一提的是,ASCII码虽然能够从小到大表示0-127的整数,但是并非所有的ASCII码都是可见的字符,比如所有小于33的ASCII码值所表示的都是不可见字符,比如空格,换行符等,因此为了能够让碱基的质量值表达出来,必须避开所有这些不可见字符。最简单的做法就是加上一个固定的整数。现在一般都是使用Phred33这个体系,而且33也恰好是ASCII的第一个可见字符(’!’)。
在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值