sam/bam文件

    SAM (Sequence Alignment/Map) 格式是一种通用的比对格式,用来存储reads到参考序列的比对信息。
    SAM是sanger制定,是以TAB为分割符的文本格式。主要应用于测序序列mapping到基因组上的结果表示,当然也可以表示任意的多重比对结果。
    详细信息参考官网sam/bam文件说明

    optional field说明文件

     SAM要处理好的问题:
    (1)非常多序列(read),mapping到多个参考基因组(reference)上;
    (2)同一条序列,分多段(segment)比对到参考基因组上;
    (3)无限量的,结构化信息表示,包括错配、删除、插入等比对信息;

   SAM文件结构:注释信息(header section)和比对结果部分(alignment section)

1. 注释信息:可有可无,都是以@开头,用不同的键(tag)表示不同的信息,主要有
    @HD,说明符合标准的版本、对比序列的排列顺序;
    @SQ,参考序列说明;
    @RG,比对上的序列(read)说明;
    @PG,使用的程序说明;
    @CO,任意的说明信息。

2. 比对结果部分

samtools view sample.bam | head 
              #第1列                     2          3    4   5    6     7    8    9                                          10                                                                                                                                                                                    11
A00268:112:H5FCJDSXX:1:1638:14624:33677	353	NC_001941.1	11	3	150M	=	267	406	CTTAAACTTAAAGCAAGGCACTGAAAATGCCTAGATGAGTCTACTGACTCCATGAACATATAGGTTTGGTCCCAGCCTTCCTGTTAACTTTCAATAGACTTATACATGCAAGCATCCACGCCCCGGTGAGTAACGCCCTTCGAATCACAC	FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF	AS:i:0	XN:i:0	XM:i:0	XO:i:0	XG:i:0	NM:i:0	MD:Z:150	YT:Z:UU	NH:i:2	CC:Z:NC_019484.2	CP:i:56338608	HI:i:0
A00268:112:H5FCJDSXX:1:2268:15239:9659	417	NC_001941.1	11	3	150M	=	267	406	CTTAAACTTAAAGCAAGGCACTGAAAATGCCTAGATGAGTCTACTGACTCCATGAACATATAGGTTTGGTCCCAGCCTTCCTGTTAACTTTCAATAGACTTATACATGCAAGCATCCACGCCCCGGTGAGTAACGCCCTTCGAATCACAC	FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFF	AS:i:0	XN:i:0	XM:i:0	XO:i:0	XG:i:0	NM:i:0	MD:Z:150	YT:Z:UU	NH:i:2	CC:Z:NC_019484.2	CP:i:56338608	HI:i:0
A00268:112:H5FCJDSXX:1:2257:18602:35931	97	NC_001941.1	26	3	150M	=	407	531	AGGCACTGAAAATGCCTAGATGAGTCTACTGACTCCATGAACATATAGGTTTGGTCCCAGCCTTCCTGTTAACTTTCAATAGACTTATACATGCAAGCATCCACGCCCCGGTGAGTAACGCCCTTCGAATCACACAGGACTAAAAGGAGC	FFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFF:FFFFFFFFFFF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFF:,FFFFF:FFFFF	AS:i:0	XN:i:0	XM:i:0	XO:i:0	XG:i:0	NM:i:0	MD:Z:150	YT:Z:UU	NH:i:2	CC:Z:NC_019484.2	CP:i:56338593	HI:i:0
A00268:112:H5FCJDSXX:1:2258:18855:1172	353	NC_001941.1	26	3	150M	=	407	531	AGGCACTGAAAATGCCTAGATGAGTCTACTGACTCCATGAACATATAGGTTTGGTCCCAGCCTTCCTGTTAACTTTCAATAGACTTATACATGCAAGCATCCACGCCCCGGTGAGTAACGCCCTTCGAATCACACAGGACTAAAAGGAGC	FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFFFF,FFFFFFFFFFFFFFFFFFFFFFFF,FFFFFFFFFFFFFFFF:FFFF,FFFFF,FFFFF,FFFFFFFFFFFFFFFFFFFF	AS:i:0	XN:i:0	XM:i:0	XO:i:0	XG:i:0	NM:i:0	MD:Z:150	YT:Z:UU	NH:i:2	CC:Z:NC_019484.2	CP:i:56338593	HI:i:0
A00268:112:H5FCJDSXX:1:1671:30798:1877	163	NC_001941.1	29	50	150M	=	209	330	CACTGAAAATGCCTAGATGAGTCTACTGACTCCATGAACATATAGGTTTGGTCCCAGCCTTCCTGTTAACTTTCAATAGACTTATACATGCAAGCATCCACGCCCCGGTGAGTAACGCCCTTCGAATCACACAGGACTAAAAGGAGCAGG	FFFFFFFFFFFFF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFF:FFFFFFFFFFFFFFFF,FFFFFFF:FFFF	AS:i:0	XN:i:0	XM:i:0	XO:i:0	XG:i:0	NM:i:0	MD:Z:150	YT:Z:UU	NH:i:1
A00268:112:H5FCJDSXX:1:2155:7365:25770	321	NC_001941.1	33	1	150M	NC_019484.2	56338190	0	GAAAATGCCTAGATGAGTCTACTGACTCCATGAACATATAGGTTTGGTCCCAGCCTTCCTGTTAACTTTCAATAGACTTATACATGCAAGCATCCACGCCCCGGTGAGTAACGCCCTTCGAATCACACAGGACTAAAAGGAGCAGGTATC	FFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:,FFFFFFFFFFFFFFFF:FFFFFFFFFFFF:FF	AS:i:0	XN:i:0	XM:i:0	XO:i:0	XG:i:0	NM:i:0	MD:Z:150	YT:Z:UU	NH:i:4	CC:Z:NC_019484.2	CP:i:56338586	HI:i:0
A00268:112:H5FCJDSXX:1:2155:7365:25770	65	NC_001941.1	33	1	150M	NW_014642436.1	9144	0	GAAAATGCCTAGATGAGTCTACTGACTCCATGAACATATAGGTTTGGTCCCAGCCTTCCTGTTAACTTTCAATAGACTTATACATGCAAGCATCCACGCCCCGGTGAGTAACGCCCTTCGAATCACACAGGACTAAAAGGAGCAGGTATC	FFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:,FFFFFFFFFFFFFFFF:FFFFFFFFFFFF:FF	AS:i:0	XN:i:0	XM:i:0	XO:i:0	XG:i:0	NM:i:0	MD:Z:150	YT:Z:UU	NH:i:4	CC:Z:NC_019484.2	CP:i:56338586	HI:i:2

2.1 最少包含11列,用于描述比对结果,这是11列顺序固定,用tab分割

      发现官网对sam文件的描述有多个版本,下面是最新版本内容(2021.1.7)

    

    第1列:QNAME,Reads名称

    第2列:用于描述比对结果的Flag值,不同的Flag值可以相加,如Flag=89,代表64+16+8+1

    第3列:RNAME,参考序列名称

    第4列:POS,在RNAME比对上的位置,从1开始计数,没有比对上为0

    第5列:MAPQ,reads比对质量,注意不是读段质量,值越高表示比对质量越好,MAPQ=255表示无法确定读段质量,但是在单细胞测序分析pipeline中cellranger对MAPQ进行了更改。                                 算法:10 log10 Pr{mapping position is wrong},值越高表示比对值单细胞测序中对

    第6列:CIGAR 简要比对信息表达式(Compact Idiosyncratic Gapped Alignment Report),其以参考序列为基础,用数字+字母形式反映比对结果 ,不同字母代表的意义如下表所示

                                M:比对上的碱基;I:插入;D:缺失;N:跳过;S、H:剪切; 

                                          例如:示例数据中150M表示比对上150个碱基                                                                                                                    

                                          119S31M:前119个碱基被剪切掉,31个比对上                                                                                                                                 

                                           3S6M1P1I4M,前三个碱基被剪切去除了,然后6个比对上了,然后打开了一个缺口,1个插入,4个比对

    第7列:RNEXT,下一个读段比对上的参考序列名称。三种描述形式:“=”,与比对到与当前read一致的参考序列;“序列名称”,例如NW_014642436.1;“*”,没有相关信息或没有比对上

    第8列:PNEXT在RNEXT上的位置,0代表没有相关信息,与RNEXT=0对应

    第9列:TLEN,意思是模板长度,看不懂,原文描述如下

TLEN: signed observed Template LENgth. If all segments are mapped to the same reference sequence,
the absolute value of TLEN equals the distance between the mapped end of the template and the
mapped start of the template, inclusively (i.e., end − start + 1).14 Note that mapped base is defined
to be one that aligns to the reference as described by CIGAR, hence excludes soft-clipped bases. The
TLEN field is positive for the leftmost segment of the template, negative for the rightmost, and the
sign for any middle segment is undefined. If segments cover the same coordinates then the choice of
which is leftmost and rightmost is arbitrary, but the two ends must still have differing signs. It is set
as 0 for a single-segment template or when the information is unavailable (e.g., when the first or last
segment of a multi-segment template is unmapped or when the two are mapped to different reference
sequences).
The intention of this field is to indicate where the other end of the template has been aligned without
needing to read the remainder of the SAM file. Unfortunately there has been no clear consensus on
the definitions of the template mapped start and end. Thus the exact definitions are implementationdefined.1

    第10列:SEQ,读段长度,与CIGAR各数值和一致

    第11列:QUAL,ASCII码格式的序列质量

2.3 可选字段optional fifields

    可选字段格式“ TAG:TYPE:VALUE ”,其中TAG由两个大写字母组成,每个TAG在一行中仅能出现一次,TYPE是TAG对应值-value的类型

3. BAM文件

    通过BGZF格式压缩后的SAM文件,一种二进制文件,可以直接理解为对SAM文件的压缩。
    BAM文件无法直接用less、cat、head、tail等常规命令打开,可用samtools -view sample.bam命令打开
4. bam.bai文件

    BAM文件的索引文件,也是一种二进制文件,可通过.bai文件迅速迅速检索.bam文件相应信息。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值