SAM格式

标头注释部分
在这里插入图片描述
标头信息可有可无,都是以@开头,用不同的tag表示不同的信息,主要有:

@HD,说明符合标准的版本、对比序列的排列顺序(这里unsorted)

@SQ,参考序列说明 (SN:gi|10141003|gb|AF086833.2|)

@PG,使用的比对程序说明(这里是bowtie2)

LN 是参考序列的长度

比对结果部分
在这里插入图片描述
第一列: Query Name (QNAME)
一列代表着比对片段的(template)的编号
如 SRR957678.4325620

第二列:FLAG
在 SAM 格式中,当 flag 为 1,也即对应的二进制为 01 时,表示该 read 有多个测序数据 , 一般理解为有双端测序数据 (另一条没被过滤掉), 而 flag 为 2, 也即二进制 10 时, 表示这条 read 的多个片断都有比对结果, 通常理解为双端 reads 都比对上了, 那么就可以推断出 flag 为 3 时, 也即二进制的 11, 表示该 read 有另一端的 read 并且比对成功, 可以看到, 其实就是 01 加 10。
在这里插入图片描述
在这里插入图片描述
这个网站可以直接通过输入你所得的标记数字,直接告诉其对应的信息:https://broadinstitute.github.io/picard/explain-flags.html

第三列: Reference Name (RNAME)
reference sequence name,实际上就是比对到参考序列上的染色体号。若是无法比对,则是*

第四列: Position (POS)
比对上的位置

第五列:Mapping Quality (MAPQ)
比对的质量;比对的质量分数,越高说明该read比对到参考基因组上的位置越准确

第六列:Compact Idiosyncratic Gapped Alignment Representation (CIGAR)
CIGAR 代表着简要比对信息表达式,其以参考序列为基础,使用数字加字母表示比对结果。 例如 3S6M1P1I4M

前三个碱基被剪切去除了,然后6个比对上了,然后打开了一 个缺口,有一个碱基插入,最后是4个比对上了。

M—对比上
S----被剪切去除,S”表示 soft clipping(被剪切的序列存在于序列中)
P—打开了缺口
I—插入碱基

N”表示 skipped(跳过这段区域)

第七列:MRNM(chr)
下一个片段比对上的参考序列的编号,没有另外的片段,这里是’*‘,同一个片段,用’=‘;下图时对比上的
在这里插入图片描述
第八列:mate position
下一个片段比对上的位置,如果不可用,此处为0

详见:https://mp.weixin.qq.com/s?__biz=MzUzMTEwODk0Ng==&mid=2247484317&idx=1&sn=e6b374d36543bb771ae0ff82663c0217&scene=21#wechat_redirect

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值