SAM数据格式学习1之CIGAR理解


SAM信息中的一条:

SRR003161.2	0	chr7	41381016	60	4S153M1D132M1D5M1D28M1D73M3I12M1I40M54S	*	0	0	TCAGTTTGAGATGGAGTTTCATTCTTGTTGCCCAGGCTGGAGTGCAATGGCGCAATCTCAGCTCACAGCAACCTCCGCCTCCCGGGTTCAAGCGATTCTCCTGCCTCAGCCTCTCGAGTAGCTGGGATTACAGGCATGCACCATCACGCCCAGCTAATTTGCATTTTTTATTAGAGATGGGGTTTCTCCACATTGGTCAGGCTGATCTCGAACTCCTGACCTCAGGTGATCTGCCTGCCTTGGCCTCCCAAAGTGCTGGGATTACAGGCATGAGCCTGAGCCCAACCTATTTACTTTCAATCCATCTTTTCAATAACTTAAATACAAGTGTCAATATATACAATCTTTTCCTCCCTGGTTATCAAGCTTTCTAATATATATGGATGTATCTTCCAAGGTTTTTGATCCCATTTTACTTTACAGGCTCACTGCTGTGGAACCCAGAGAGCAGTCTCTTTTCAAGGNGGGCTGAGACNCGCAACAGGGGATTAGGCCAAGGCNCAGG	CCCCCCCCCCCCCCCC@@@CCCFEEEFEEG888EEEFFEEEEFGGGGGGCCCCCCCCCCCCCCCCCCCCCCCCCCCCCA<777@@CCCBCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCAAACCCCCCCCCCCCCCCCCCCCCCC:93339@A>77//39AC666666C22CAAAA93333///7-0017>9999>>A???ACCCCCCC2239322>9977<?????CCCCCCCCC877777777111111::::5555:555:::::::::;:555:;;::::0040-----***--467::::;;;;;;:::511155555:555:::;::::::7777744-------///245::;;;::::::;;;;;;;;:55554774----------44-----064---------6---522451115247644255-----,4---24464422---------!,,,4464224!11:::7:::111111--7777---!----	NM:i:12	MD:Z:153^T40T91^T5^T28^G73G23C0G26	AS:i:379	XS:i:88
CIGAR信息为:
4S153M1D132M1D5M1D28M1D73M3I12M1I40M54S	
理解:

1.s为soft clipping,4s即查询串的开始四个字符不考虑

2.然后153M表示接下来153个为匹配正确或者错误匹配的数量为153,位置从chr7的41381016 开始,到41381161为第146为,在往又7个字符都匹配,到第8个字符就有个“*”号,所以这146+7=153个字符都匹配这确或者匹配错误,没有删除和插入。


scala> 41381161-41381016+1
res2: Int = 146


3. 接下为为1D,表示1个deletion,如下图中第一个“*”号的位置,指的是参考序列删除,而不是查询序列删除,可以看出图1的参考序列有4个T,而图2查询序列是三个T.


图1



图2:





4.接下来是132M,中间有错误匹配的,132个之后有个"*"号,才出现1D


5.接下来都是很多都是依次类推


6.CIGAR:4S153M1D132M1D5M1D28M1D73M3I12M1I40M54S 

后面有个3I,表示三个insertion可以看出是在ref插入三个字符,用“***”表示,查询串插入的是AGG,后面12M之后又有一个1I,同理插入的为T。

图3:


图4:


7.1P表示填充的,意思是其他基因串可能要插入两个,比如图5的r001,而r002则对应的有一个“*”,这个*为填充的=》每确定一条有P的read需要修改该位置其他所有read的CIGAR状态

图5


8.H表示the clipped sequence is not present in the sequence field.如图5中r003+开始的5个字符没有存储在sam中,r003-的开始的6个字符没有存储在sam中


9.N表示‘N’ for skipped bases on the reference,如r004中有14N


10.另外:图5中的c为pileup,圆点或者逗号表示该碱基等参考序列一眼,一个圆点或者大写的字符表示碱基匹配的是正链,一个逗号或者小写的表示反链

In the fifth field, a dot or a comma denotes a base identical to the referece; a dot or a capital letter denotes a base from a read mapped on the forward strand, while a comma or a lowercase letter on the reverse strand.


其他:

(1).论文描述:

2.1.2 Extended CIGAR The standard CIGAR description of pairwise
alignment defines three operations: ‘M’ for match/mismatch, ‘I’ for insertion
compared with the reference and ‘D’ for deletion. The extended CIGAR
proposed in SAM added four more operations: ‘N’ for skipped bases on
the reference, ‘S’ for soft clipping, ‘H’ for hard clipping and ‘P’ for padding.
These support splicing, clipping, multi-part and padded alignments. Figure 1
shows examples of CIGAR strings for different types of alignments


(2)部分命令:

hadoop@Master:~/cloud/adam/xubo/data/test20160310$ samtools tview SRR003161h20.sort.bam GCA_000001405.15_GRCh38/GCA_000001405.15_GRCh38_full_analysis_set.fna


参考:

【1】The sequence alignment/map format and SAMtools

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值