SAM/BAM文件格式

SAM–Sequence Alignment/Map 文件格式

SAM文件是TAB制表符分隔的文件,BAM文件是其对应的二进制文件。主要分为两部分,刚开始是@开头的header行,里面包含有各种meta信息。接下来的是比对结果部分,每一行是有11列的比对信息,是我们最需要关注的部分。
SAM文件示例
各列所代表的信息(以下截图非特殊说明,都来自参考的pdf文件中)
在这里插入图片描述
第一列:QNAME-- Query template NAME这个很直白,就是query的片段的名称编号,对应测序fastq数据中reads的名称。
第二列:FLAG-- bitwise FLAG标签,用二进制的方法表征比对的结果。如果是以下一种或几种情况同时出现,那么对应的首列的数字的和是你在sam文件中第二列看到的数字。比如83=64+16+2+1,就说明该reads比对上了参考基因组,同时有双端两条序列都比对上,而且当前片段反向比对到参考基因组上。在这里插入图片描述
第三列:RNAME-- Reference sequence NAME参考基因组对应的染色体或contig、scaffold的名称。如果*,则表示没有比对上结果。
第四列:POS-- 1-based leftmost mapping POSition片段最左端mapping到参考基因组上的位置,从1开始计数。如果为0,则表示没有比对上。
第五列:MAPQ-- MAPping Quality比对分数, −10 log10 Pr{mapping position is wrong}–比对位置为错的概率的以十为底的对数变换。根据这个公式,也可以知道值越大说明比对错的概率越低。
第六列:CIGAR-- CIGAR string代表Concise Idiosyncratic Gapped Alignment Report的缩写。首先有以下分别表征不同意思的字母。多数意思还是很容易懂的,比如序列比对、插入和缺失以及跳过该片段。文档中提到了 Sum of lengths of the M/I/S/=/X operations shall equal the length of SEQ。在这里插入图片描述
下面我们举两个例子。比如251M,表示完全match的alignment。再比如30M3D126M3D58M37S,稍微复杂一些,表示这段reads中,从前往后依次是30bp的match+3bp的缺失+126bp的match+3bp的缺失+58bp的Match+27bp的soft clipping。
关于S和H引用来自孟浩巍在zhihu上的图(原引用链接已经失效了)。可以看到在比对时,片段中仅有部分比对到参考序列。不同的是,软连接最终会在后面的序列中保留对应的序列,而硬连接会在后面的序列中直接删掉该片段。引用对应内容的评论中媛子的解释“Hard Clip存在的本意,是减少BAM文件序列的冗余度,比如有一条read,它能比对到A,B两个地方,在A地方,是60M90S,在B地方是60H90M,此时一条read其实已经在A位置有了完整的序列信息,在B位置的信息其实是冗余的,所以在B位置可以引入Hard Clip这样一个标记形式,就能把B位置的序列标记为secondary。”

在这里插入图片描述
第七列:RNEXT-- Reference name of the mate/next read下一个读段比对上的参考序列的名字。如果在header中存在@SQ对应的信息,那么在该位置,“=”表示前后是位于同一个片段,“*”表示没有对应的片段信息。
第八列:PNEXT-- Position of the mate/next read下一个片段比对上的位置,如果没有相关信息则为0。
第九列:TLEN-- observed Template LENgth如果所有读段都映射到对应的参考序列,则TLEN的绝对值等于模板序列的映射末端与模板序列的映射起始点(包括两端)之间的距离(end-start+1)。需要注意的是比对上的碱基不包括sof-clipped碱基。读段比对到模板的最左段起始,TLEN字段为正,如果比对到于最右段起始,其实就是反义链,TLEN字段为负。如果两端比对的起始位置相同,那么任意分配正负号。如果只有单链,则值为0。并且任何中间段的正负号是均未定义的。
第十列:SEQ-- segment SEQuence如果是*则表明该序列没有存储,否则会有对应的序列片段,长度 和CIGAR中的M/I/S/=/X是对应的。
第十一列:QUAL-- ASCII of Phred-scaled base QUALity+33测序的phred-scaled score。
后面的列:部分软件会添加一些信息在里面。

参考:
https://github.com/samtools/hts-specs/目录下的SAMv1.pdf
https://zhuanlan.zhihu.com/p/35574870
https://mp.weixin.qq.com/s?__biz=MzUzMTEwODk0Ng==&mid=2247484317&idx=1&sn=e6b374d36543bb771ae0ff82663c0217&scene=21#wechat_redirect

如果感兴趣可以关注下公众号,从今天开始想慢慢记录下自己的积累,一点一滴,聚沙成塔!国庆中秋双节快乐~
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值