bam文件读取_生物信息学分析实用小技巧(六):BAM/SAM中的雪茄值

BAM/SAM文件两三事

写在前面的

上期推文主要解读了BAM文件的Flags值,通过一个perl程序快速批量翻译Flags值。flags详细记录了reads的比对信息。是由一堆2的n次方(n=0~11)加和组成。例如某条reads经过比对后的flags是83, 83= 1+2+16+64转化为2进制为1010011, 则代表这是一条双端测序的Read1,该reads及其对应reads都是正常比对且当前reads是反向互补后比对上的参考基因组。而perl程序就是基于这个基本思路,通过构建10进制转2进制进行Flags值计算的。虽然已经有flags值计算器了。但是通过编写这些程序会加深对BAM文件的理解。从而加深对生物信息学数据的理解。

CIGAR值的解读

CIGAR是Compact Idiosyncratic Gapped Alignment Report的首字母缩写,是也是记录了reads比对到参考基因组上的字符串。只不过这个字符串是由数字+字母组合成的字符串。与Flags值不同的是CIGAR记录的是每条reads内部每个部分的比对情况。而Flags值则是记录每条reads总体的比对情况。与Flags值相比,CIGAR值对于reads比对的细节记录的更详细。那么,在对CIGAR值有了初步的了解以后,我们继续深入了解这个值的意义。由于CIGAR值是由数字+字母构成的字符串,那么下面这张来自于碱基旷工的图则清晰的阐明了CIGAR值中出现的每个字母的比对含义。

5fd238121ee81051c50b13f4957c399e.png

举例而言,如果一条250bp的reads在BAM文件中的CIGAR值记录为50S100M10D100M,那么则表示这条reads的前50bp被跳过,中间100M比对上了参考基因组,后100bp也比对上了参考基因组。但是中间100M和后面100M则在比对参考基因组时出现了一个10bp的gap。也就是参考基因组上有10bp是这条reads没有的,

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值