sam格式的结构和意义_sam格式详细说明

The SAM Format Specification(sam格式说明)1 The SAM Format Specificationsam是一种序列比对后的输出格式,以tab作为分隔符,包括头部信息和比对信息。其中头部信息必须在比对信息之前。头部信息的开头是@,但是比对行不是。每一个比对行有11个重要的比对信息元素,如果比对位置和校准信息等。1.1 An exampleFCC0YG3ACXX:2...
摘要由CSDN通过智能技术生成

The SAM Format Specification(sam格式说明)

1 The SAM Format Specification

sam是一种序列比对后的输出格式,以tab作为分隔符,包括头部信息和比对信息。其中头部信息必须在比对信息之前。头部信息的开头是@,但是比对行不是。每一个比对行有11个重要的比对信息元素,如果比对位置和校准信息等。

1.1 An example

FCC0YG3ACXX:2:1103:1572:139769#GCTTAATG 99 chr10 60001 0 90M = 60390 479 GAATTCCTTGAGGCCTAAATGCATCGGGGTGCTCTGGTTTTGTTGTTGTTATTTCTGAATGACATTTACTTTGGTGCTCTTTATTTTGCG CCCFFFFFHHHHHJJJJJJJJIJJJJJJJ?HHGIJJJBFHIJIJIDHIHIEHJJIJJIJJJHHGHHHFFFFFFEDCEEECCDDDDEECDD XT:A:R NM:i:0 SM:i:0 AM:i:0 X0:i:2 X1:i:0 XM:i:0 XO:i:0 XG:i:0 MD:Z:90 XA:Z:chr18,+14415,90M,0; RG:Z:120618_I245_FCC0YG3ACXX_L2_SZAXPI010030-30

1.2 Terminologies and Concepts

1-based coordinate system

从1开始数, SAM, GFF and Wiggle 用的是这个。

0-based coordinate system

从0开始数, BAM, BED, and PSL用的是这个。

Phred scale

给一个概率0 < p <= 1 , 值是一个 −10log10p,要做一个四舍五入

1.3 The header section

每个标题行以字符“@”开头,后面是两个字母的记录类型代码。在标题中,每一行都是由制表符分隔的,除了@CO行,每个数据字段都遵循格式“TAG:VALUE”,其中TAG是一个两个字母的字符串,定义了内容和值的格式。每个标题行应该匹配:/ ^ @[A-Za-z][A-Za-z](\ t[A-Za-z][A-Za-z0-9]:[- ~]+)+ $ /或/ ^ @CO \ t。* /。包含小写字母的标记保留给最终用户。

下表给出了定义的记录类型和标记。当记录类型出现时,需要带有“*”的标记。

TagDescription

@HD

首行,输出文件的第一行

VN*

格式版本,接受的格式:/^[0-9]+.[0-9]+$/

SO

比对排序,有unknown (default), unsorted, queryname and coordinate,对于coordinate,排序的主键是RNAME,其顺序由标题中的@SQ行顺序定义,次要排序键是POS字段。对于RNAME和POS相等的对齐,顺序是任意的。在RNAME字段中,所有带有“*”的对齐都跟随带有其他值的对齐,但是其他的对齐顺序是任意的。

TagDescription

@SQ

参考

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值