2字段添加注释_从零开始生物信息学(8):常用数据格式(2)

3dfbbe77ba1bb54a7921493170d251fe.png

前言

这部分内容继续介绍没介绍完的生物学常用格式:

  • BED
  • Sam
  • Bam
  • VCF

BED

BED(Browser Extensible Data)格式也是一种常用的用于基因注释的数据格式。BED格式数据有专门开发的工具bedtools来专门处理,和之前提到的GFF文件有很多相似的地方。

BED数据格式如下;

chr7  127471196  127472363  Pos1  0  +  127471196  127472363  255,0,0
chr7  127472363  127473530  Pos2  0  +  127472363  127473530  255,0,0
chr7  127473530  127474697  Pos3  0  +  127473530  127474697  255,0,0
chr7  127474697  127475864  Pos4  0  +  127474697  127475864  255,0,0
chr7  127475864  127477031  Neg1  0  -  127475864  127477031  0,0,255
chr7  127477031  127478198  Neg2  0  -  127477031  127478198  0,0,255
chr7  127478198  127479365  Neg3  0  -  127478198  127479365  0,0,255
chr7  127479365  127480532  Pos5  0  +  127479365  127480532  255,0,0
chr7  127480532  127481699  Neg4  0  -  127480532  127481699  0,0,255

BED文件每行至少包括chrom,chromStart,chromEnd三列(必选);另外还可以添加额外的9列(可选)

必选的三列:

  1. chrom:染色体或者是scaffold的名称,或scaffold是比染色体小一点的组装单位。
  2. chromStart:染色体或scaffold中特征的起始位置。通常第一个碱基编号为0。
  3. chromEnd:染色体或scaffold中特征的结束位置。

9个可选的BED字段:

  1. name:定义每一行属性的名称
  2. score:得分在0到1000之间,如果useScore参数为1,则得分是指灰度级别
  3. strand:表示链的方向,+表示正向,或者-表示负向
  4. thickStart: 起始位置,例如,基因显示中的起始密码子
  5. thickEnd:终止位置,例如:基因终止编码位置
  6. itemRgb:RGB形式的RGB值,例如(255,255,255)。但是需要 itemRgb属性设置为On
  7. blockCount:BED行中的外显子数目
  8. blockSizes: 用逗号分割的外显子的大小, 对应于blockCount的数目
  9. blockStarts:用逗号分割的列表, 所有外显子的起始位置,数目也与blockCount数目对应

Sam

SAM(sequence alignment map)是一种序列比对的文件格式,Sam格式是高通量测序数据分析的常用格式,因为它可以快速查找与坐标重叠的比对(它有记录一些序列索引信息),并且是一种高效的存储方式,例如Bam就是Sam格式的二进制文件,是一种通用的格式。同时Sam格式也是是目前最常用的存放比对或联配数据的格式。无论是重测序,还是转录组,还是表观组,几乎所有流程都会产生SAM/BAM文件作为中间步骤,用于接下来分析。

Sam样例格式如下:

fffa0b1af1f3e61f35bcb35e903e9ce1.png

Sam格式数据可以分为两部分,分别是注释信息(header section)和比对结果部分(alignment section),注释信息可有可无,都是以@开头,用不同的tag表示不同的信息,主要有以下几种格式:

  • @HD,说明符合标准的版本、对比序列的排列顺序
  • @SQ,参考序列说明
  • @RG,比对上的序列(read)说明
  • @PG,使用的程序说明
  • @CO,任意的说明信息

比对结果部分,每一行表示一个片段的比对信息,包括11个顺序固定的必选字段和一个可选的字段,字段之间用tag分割。这11个字段包括:

  1. QNAME:比对片段的(read)的名称信息
  2. FLAG:位标识,表明比对类型:paring,strand,mate strand等等
  3. RNAME:比对上的参考序列名
  4. POS,position缩写,read比对到参考序列上,第一个碱基所在的位置,没匹配上设置为0
  5. MAPQ:Mapping quality缩写,比对的质量分数,越高说明位置越唯一且可信度越高
  6. CIGAR:(Compact Idiosyncratic Gapped Alignment Report),简要比对信息表达式,其以参考序列为基础,使用数字加字母表示比对结果,比对结果信息,匹配碱基数,可变剪接等等
  7. RNEXT:下一个片段比对上的参考序列的编号,没有另外的片段,这里是*,同一个片段,用=**
  8. PNEXT:下一个片段比对上的位置,如果不可用,此处为0
  9. TLEN:观察到的Template的长度,最左边得为正,最右边的为负,中间的不用定义正负,不可用为0
  10. SEQ:序列片段的序列信息,如果不存储此类信息设置为*
  11. QUAL:序列的质量信息,格式同FASTQ一样,read质量的ASCII编码

可选字段(optional fields),格式如:TAG:TYPE:VALUE,其中TAG有两个大写字母组成,每个TAG代表一类信息,每一行一个TAG只能出现一次,TYPE表示TAG对应值的类型,可以是字符串、整数、字节、数组等:

a08d777d7e5a5c1a843d6fedc7e528ad.png

为了方便大家理解,从网上找了个图:

787ee1e4db0f5bbb735110b55f6f28a4.png

Bam

Bam是Sam的二进制文件格式,Bam格式中的b是binary的意思,由于Sam格式文件大小通常是十分巨大的,所以为了减少存储量等因素而将Sam转换为二进制格式以便于分析

VCF

VCF(Variant Call Format)是用于描述SNP,INDEL和SV结果的文本文件,是存储变异位点的标准格式

以下是VCF格式的一个样例:

ff2b704f37b0d30bac46646e60e230a0.png

这个数据可以包括两个部分:

  1. 注释部分##表示,可以找到接下来每一个位点的描述的tag
  2. 主体部分:包含10列数据,主题部分每一行代表一个variant的信息

分别是:

  • CHROM : 参考序列名称
  • POS : variant所在的位置,如果是INDEL的话,位置是INDEL的第一个碱基位置
  • ID : variant的ID。同时对应着dbSNP数据库中的ID,若没有,则默认使用.
  • REF : 参考序列的碱基
  • ALT : variant的碱基
  • QUAL : variants的质量。Phred格式的数值,代表着此位点是纯合的概率,此值越大,则概率越低,代表着次位点是variants的可能性越大(表示变异碱基的可能性)
  • FILTER : 用于表示次位点是否要被过滤掉
  • INFO : variant的相关信息,这里有很多的内容
  • FORMAT : variants的格式和基因型的信息

VCF的INFO

上面有一列的数据是INFO的列名,这里包含了很多其他信息,大家可以参考wiki的内容查看:

4fff51e07dc9da2454ed66c971506c4c.png

本次生物信息学数据格式介绍介绍部分就到这,欢迎和我讨论!

欢迎大家关注我的知乎专栏:从零开始生物信息学

相同内容也可以关注我的微信公众号: 壹读基因:

7dfa230ca39b3ec9359341ea9556847b.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值