SAM/BAM相关的进阶知识

1. samtools和picard的排序问题
samtoolspicard都有对SAM/BAM文件进行排序的功能,一般都是基于坐标排序(还提供了-n选项来设定用reads名进行排序),先是对chromosome或contig进行排序,再在chromosome/contig内部基于start site从小到大排序,对start site排序很好理解,可是对chromosome/contig排序的时候是基于什么标准呢?
基于你提供的ref.fa文件中的chromosome/contig的顺序。当你使用比对工具将fastq文件中的reads比对上参考基因组后会生成SAM文件,SAM文件包含头信息,其中有以@SQ开头的头信息记录,reference中有多少条chromosome/contig就会有多少条这样的记录,而且它们的顺序与ref.fa是一致的。
在这里插入图片描述
在这里插入图片描述
当使用samtools或picard对SAM/BAM文件进行排序时,这些工具就会读取头信息,按照头信息指定的顺序来排chromosome/contig。所以进行排序时需要提供包含头信息的SAM/BAM文件。

@HD:表示参考基因组的排列情况
@SQ:参考序列说明;LN:长度,这里的长度与ucsc.hg19.fasta.fai中的长度是一样的。
@PG:使用的比对程序说明,可以看到使用的参考基因组:hg19还是hg38
@RG:比对上的序列(read)说明

在这里插入图片描述

第二部分:联配必要信息,每一行有12行,通过Tab键分割。
在这里插入图片描述
第一列:rname(Qname)即为fq对应的read ID。这一列代表read的名字(比对片段的编号)
第二列:FLAG 比对信息位。读懂flag的诀窍:

想要读懂他的一个关键点是将flag值转换为一串由0,1组成的二进制码,这一串二进制数中的每一个

位(bit)都代表一个特定的信息,他一共有12位,所以一般会用一个16位的整数来代表,这个整数的

值就是由12个0或1组合计算得出的。因此他的数值范围在0~2^12(2048)

举一个例子,FLAG=77=000001001101(左边补5个0)=1+4+8+64
FLAG包含信息:PE reads、read比对不上参考序列,它的配对read也比对不上,它是read1

第三、四列:position 分别是RNAME(参考序列染色体名)和POS(比对位置,从对应染色体的第1位开始往后计算)

第五列:MAPQ(mapping quality) 比对质量值

这个值告诉我们这个read比对到参考序列上这个位置的可靠程度。相当于Q

第六列:CIGAR 比对信息(雪茄字符串)

它用数字和几个字符的组合形式记录了read比对到参考序列上的细节信息,读起来比FLAG直观友好很多,只是

记录的信息不同。例子:33S117M,意思是在比对的时候这条read开头的33bp被跳过了(s),紧接其后的117bp

则比对上参考序列(M)。这里的S意思都是soft clip。

CIGAR的标记字符有:MIDNSHP=XB在这里插入图片描述

第七、八、九列:Mate information

RNEXT:配对read所比对到的染色体(pe才有)
=号代表比对到了相同的染色体上。

PNEXT:配对read所比对到的位置(pe才有)

TLEN:插入片段的长度:如果所有段都映射到相同的参考序列,则TLEN的绝对值等于模板的映射末端与模板的映射起始点之间的距离,包括端值(即end-start + 1)。当多段模板的第一个或最后一个段未映射时,或者当两个映射到不同的参考序列时,它将设置为0。

第十、十一列:
SEQ:read序列
QUAL:read质量值

这两列相当于fastq的二四行

第十二列:metadata 元信息

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值