社会你明哥,人狠话又多!
【小明的碎碎念】上周因为一些不可抗力拖更了,但是小明保证好东西永远不怕晚,欠大家的肯定给大家补上,而且干货只会多不会少——现在请系紧安全带,继续发车!
![003b23f92f3571196cb9329da19ef65e.gif](https://img-blog.csdnimg.cn/img_convert/003b23f92f3571196cb9329da19ef65e.gif)
上期给大家介绍了宏基因组binning的基础知识(上篇),原计划是要给大家带来下篇的,但是小明后面看了一下当初写的稿子,现在看来惨不忍睹
![90115fb4a5e61bf7cbe1f4504432a01b.png](https://img-blog.csdnimg.cn/img_convert/90115fb4a5e61bf7cbe1f4504432a01b.png)
所以宏基因组binning系列目前已经烂尾,此坑后期尽量填上,现在新开一坑,干巴爹!
下面是正文
目录
1. samtools和picard的排序问题
2. SAM文件中FLAG值的理解
3. SAM文件中那些未比对的reads
1. samtools和picard的排序问题samtools
和picard
都有对 SAM/BAM 文件进行排序的功能,一般都是基于坐标排序(还提供了-n
选项来设定用 reads 名进行排序),先是对chromosome/contig 进行排序,再在 chromosome/contig 内部基于 start site 从小到大排序,对start site排序很好理解,可是对 chromosome/contig 排序的时候是基于什么标准呢?基于你提供的ref.fa
文件中的 chromosome/contig 的顺序。当你使用比对工具将 fastq 文件中的 reads 比对上参考基因组后会生成 SAM 文件,SAM 文件包含头信息,其中有以 @SQ
开头的头信息记录,reference 中有多少条chromosome/contig 就会有多少条这样的记录,而且它们的顺序与ref.fa
是一致的。
SAM/BAM文件的头信息:
@HD VN:1.3 SO:coordinate
@SQ SN:chr1 LN:195471971
@SQ SN:chr2 LN:182113224
@SQ SN:chr3 LN:160039680
@SQ SN:chr4 LN:156508116
@SQ SN:chr5 LN:151834684
@SQ SN: