bam文件读取_SAM/BAM 格式文件内容解析

本文介绍了1-和0-坐标系统,并详细解析了BAM文件中的SAM格式,包括模板、片段、Read、线性与嵌合比对等概念,以及SAM文件的头部和主体内容,如HD、SQ、RG、PG、CO等标签,帮助读者深入理解BAM文件的读取和内容分析。
摘要由CSDN通过智能技术生成

一、首先需要知道以下几个知识点:

1.1-based coordinate system

A coordinate system where the rst base of a sequence is one. In this coordinate

system, a region is specied by a closed interval. For example, the region between the 3rd

and the 7th bases inclusive is [3; 7]. The SAM, VCF, GFF and Wiggle formats are using the 1-based coordinate system.

2.0-based coordinate system

A coordinate system where the rst base of a sequence is zero. In this

coordinate system, a region is specied by a half-closed-half-open interval. For example, the region

between the 3rd and the 7th bases inclusive is [2; 7). The BAM, BCFv2, BED, and PSL formats are using the 0-based coordinate system.

3.模板(Template):

由测序仪测序所得或由原始序列组装所得的DNA/RNA序列

4.片段(Segment)

一段连续的序列或者子序列

5.Read

一段由测序仪测序所得的原始序列。一条Read可能由多个片段组成,在测序数据中,reads是根据它们被测的顺序来建立索引的。

6.Linear alignment(线性比对)

一个Read单向地比对到参考基因组上,这个比对结果中可以有插入、缺失、跳跃等,但是不能存在“双向”的比对结果,即Read的一段比对到正链参考基因组、一段匹配到负链,这种方向切换是不允许的,在SAM文件中,线性比对的特性就是:只用一行来记录。

7.Chimeric alignment(嵌合比对)

就是当一条Read对比时,比对到了多个区域,但是这些区域并没有重叠的部分,也即由多个“线性比对”结果组成了一个集合,这个集合就组成了一个嵌合比对,嵌合比对中只有一个“线性比对”结果是具有代表性的,其余的都以补充的身份出现,嵌合比对的特征就是多个“线性比对”记录中的Read对应的Qname(Read的名字,每个Read只有一个Qname)都是相同的,且这些“线性比对”集合中的每个记录的flag值都是一样的。

8.Read alignment(Read 比对)

无论是上面提到的线性比对还是嵌合比对,只要能够完整的表现出一条Read的对比情况,就是一个Read 比对。

9.Multiple mapping(多次比对)

由于序列的重复性,导致一个Read在比对时会被比对到多个区域上,其中只有一个比对质量最好的会被当做比对结果的代表性结果,目前来看&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值