一、首先需要知道以下几个知识点:
1.1-based coordinate system
A coordinate system where the rst base of a sequence is one. In this coordinate
system, a region is specied by a closed interval. For example, the region between the 3rd
and the 7th bases inclusive is [3; 7]. The SAM, VCF, GFF and Wiggle formats are using the 1-based coordinate system.
2.0-based coordinate system
A coordinate system where the rst base of a sequence is zero. In this
coordinate system, a region is specied by a half-closed-half-open interval. For example, the region
between the 3rd and the 7th bases inclusive is [2; 7). The BAM, BCFv2, BED, and PSL formats are using the 0-based coordinate system.
3.模板(Template):
由测序仪测序所得或由原始序列组装所得的DNA/RNA序列
4.片段(Segment)
一段连续的序列或者子序列
5.Read
一段由测序仪测序所得的原始序列。一条Read可能由多个片段组成,在测序数据中,reads是根据它们被测的顺序来建立索引的。
6.Linear alignment(线性比对)
一个Read单向地比对到参考基因组上,这个比对结果中可以有插入、缺失、跳跃等,但是不能存在“双向”的比对结果,即Read的一段比对到正链参考基因组、一段匹配到负链,这种方向切换是不允许的,在SAM文件中,线性比对的特性就是:只用一行来记录。
7.Chimeric alignment(嵌合比对)
就是当一条Read对比时,比对到了多个区域,但是这些区域并没有重叠的部分,也即由多个“线性比对”结果组成了一个集合,这个集合就组成了一个嵌合比对,嵌合比对中只有一个“线性比对”结果是具有代表性的,其余的都以补充的身份出现,嵌合比对的特征就是多个“线性比对”记录中的Read对应的Qname(Read的名字,每个Read只有一个Qname)都是相同的,且这些“线性比对”集合中的每个记录的flag值都是一样的。
8.Read alignment(Read 比对)
无论是上面提到的线性比对还是嵌合比对,只要能够完整的表现出一条Read的对比情况,就是一个Read 比对。
9.Multiple mapping(多次比对)
由于序列的重复性,导致一个Read在比对时会被比对到多个区域上,其中只有一个比对质量最好的会被当做比对结果的代表性结果,目前来看&