image
SAM 是sequence alignment format [http://samtools.github.io/hts-specs/SAMv1.pdf]的缩写,BAM文件是SAM的二进制文件。当测序生成的fastq文件比对到参考基因组后就会生成SAM文件或者BAM文件。大部分的数据分析都是始于SAM文件。
SAM 文件的结构
SAM格式文件包括头部注释部分和比对结果部分,头部分为''可选部分''。头部分位于比对部分之前,以“@”开头。比对部分有11列是固定的,其他多列可选。看如下例子:
@HD VN:1.0 SO:unsorted #VN版本,比对有无sorted
@SQ SN:17 LN:83257441 ##SQ:参考序列目录。SN:参考序列名字。LN:参考序列长度
@PG ID:hisat2 PN:hisat2 VN:2.1.0 CL:/home/bio/bin/hisat2/hisat2-align-s --wrapper basic-0 -c GTGCTGAACGACGAGGACTGCCGGGAGTTCCCCTGGCAC ##PG:program 。 ID:program record identifier 。 VN:程序版本。CL:command line
0 16 17 805144 60 39M * 0 0 GTGCCAGGGGAACTCCCGGCAGTCCTCGTCGTTCAGCAC IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII AS:i:0 Z:39 YT:Z:UU NH:i:1
头部注释部分
@HD:说明VN的版本