sam格式的结构和意义_SAM/BAM文件格式简介(一)

SAM(Sequence Alignment/MAP format)文件用于存储序列比对信息,包括头部信息(HD、SQ、RG、PG、CO)。头部信息提供了版本、参考基因组、读组和程序等关键数据,便于后续分析。HD中的VN、SO等tag,SQ中的SN、LN等tag,RG中的ID、LB等tag,以及PG中的ID、PN等tag是重要的元数据。
摘要由CSDN通过智能技术生成

将reads比对到参考基因组上,我们称之为mapping。mapping的工具很多,为了方便下游分析,对于mapping产生的文件,业界有一个统一的标准,这个标准就是SAM。

SAM全称Sequence Alignment/MAP format, 从命名上可以看到,这种文件就是用来存储序列比对信息的。SAM文件是一种纯文本文件,分为两个部分,头部head section和正文的比对部分alignment section。

本文首先介绍下头部信息,头部信息不是必须的,可以没有。

头部信息以@开头,通常是一些注释信息。SAM文件标准事先定义了以下几种类型的信息,对于每种信息,又细分为不同的tag, 其中有部分tag是必须的,其他是可选的,每个tag会有对应的value, 采用tag:value的写法。

1.HD

HD代表head line,是头部信息的第一行,这部分信息包含VN, SO, GO3种tag,VN代表版本号,SO代表排序的标准,unsorted表示没有排序,queryname表示按照输入序列的名称进行排序,coordinate表示按照比对位置进行排序,按照比对位置排序时,首先按照染色体排序,然后才是染色体上的比对位置。染色体的排序和SQ标签指定的染色体顺序一致。

在HD中,VN信息是必须有的。

2.SQ

SQ代表sequence, 表示参考基因组的序列信息,包含SN, LN, AH, AN, AS, M5, SP, UR这几种tag, 每条序列都会有对应的一行信息。

SN代表序列名称,LN代表序列的长度,AS代表基因组的组装版本信息,M5

国外经典SAM结构分析资料。 偶尔从google上获得,从网上搜集了一大会,发现比国内的资料简直UP了好些年。 Security Accounts Manager Author: clark@hushmail.com Last updated: 3rd April 2005 ________________________________________ This article is based primarily on a local default setup of NT5.0 Professional or 2K (Windows 2000), however there maybe additional verified references to XP Professional and Server Editions. Much will apply across the NT range, but not all has been verified. Note that this is a partial update from the orginal version, there will be more additions, I just thought it was time to consolidate some stuff. This article has been written concisely and progressively, it is advisable not to skim read. Some stuff is advanced, use a test machine where possible. Special thanks to: (alphabetically ordered) esrever_otua: For pointing out something which I had missed about group memberships. fishy5: For coding XORCheck.exe which calculates the registry hive checksum. mirrorshades: For inspiring a hash database space optimzation technique rattle: For coding ntdate.exe which calculates the NT time format and the LastPolicyTime; a couple of programs for the #DAD8636F687BF15B section and for working on the LM Hash Decoder V1/V2 projects. Serg Wasilenkow: For working on the LM Hash Decoder V1/V2 projects. Vladimir Katalov: For the PWSEx product key and working on the LM Hash Decoder V1/V2 projects. xavic: For inspiring a hash database space optimzation technique Due to length and my decision not to divide this article into separate pages I have split the article into 4 main chapters. 01. Users and Groups 02. (some) Security Settings 03. Registry Structure 04. Passwords
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值