帮朋友处理sam各式文件,又记不住sam各式每列代表的什么内容,干脆转个帖子留着以后查询。
在SAM输出的结果中每一行都包括十二项通过Tab分隔,从左到右分别是:
1 序列的名字
2 概括出一个合适的标记,各个数字分别代表
-
1? 序列是一对序列中的一个
-
2? 比对结果是一个pair-end比对的末端
-
4? 没有找到位点
-
8? 这个序列是pair中的一个但是没有找到位点
-
16? 在这个比对上的位点,序列与参考序列反向互补
-
32? 这个序列在pair-end中的的mate序列与参考序列反响互补
-
64 序列是 mate 1
-
128 序列是 mate 2
假如说标记为以上列举出的数目,就可以直接推断出匹配的情况。假如说标记不是以上列举出的数字,比如说83=(64+16+2+1),就是这几种情况值和。
3? 参考序列的名字
4 在参考序列上的位置
5? mapping qulity?? 越高则位点越独特
bowtie2有时并不能完全确定一个短的序列来自与参考序列的那个位置,特别是对于那些比较简单的序列。但是bowtie2会给出一个值来显示出 这个段序列来自某个位点的概率值,这个值就是mapping qulity。Mapping qulity的计算方法是:Q=-10log10p,Q是一个非负值,p是这个序列不来自这个位点的估计值。
假如说一条序列在某个参考序列上找到了两个位点,但是其中一个位点的Q明显大于另一个位点的Q值,这条序列来源于前一个位点的可能性就比较大。Q值的差距越大,这独特性越高。
Q值的计算方法来自与SAM标准格式,请查看SAM总结。
6 代表比对结果的CIGAR字符串,如37M1D2M1I,这段字符的意思是37个匹配,1个参考序列上的删除,2个匹配,1个参考序列上的插入。M代表的是alignment match(可以是错配)
7? mate 序列所在参考序列的名称
8 mate 序列在参考序列上的位置
9? 估计出的片段的长度,当mate 序列位于本序列上游时该值为负值。
10 read的序列
11 ASCII码格式的序列质量
12 可选的区域
-
AS:i? 匹配的得分
-
XS:i? 第二好的匹配的得分
-
YS:i? mate 序列匹配的得分
-
XN:i? 在参考序列上模糊碱基的个数
-
XM:i? 错配的个数
-
XO:i? gap open的个数
-
XG:i? gap 延伸的个数
-
NM:i? 经过编辑的序列
-
YF:i? 说明为什么这个序列被过滤的字符串
-
YT:Z
-
MD:Z? 代表序列和参考序列错配的字符串
也可以查看这个,也比较详细
https://blog.csdn.net/u014182497/article/details/51691743