Input:参考基因组和read数据。
Output:比对的结果。
基本思想:1.建立索引。(基于BWT)
2.匹配。(精确匹配和非精确匹配)。
BWT的一些属性:BWT转换。
acaacg$为原始串。将串旋转得到7个新的字符串。再将其按照字典顺序排序,保存最后一列。其实如果只看每一行$符号的前边,这其实本质上是一个后缀数组。
性质1:利用最后一列可以还原出整个数组。(基本过程就是,排序-〉组一起-〉再排序)
性质2:最后一列中与第一列中同种字符在该字符中的相对位置顺序不变。(用在LF mapping)
性质3:最后一列中大量相同的字符聚在一起,可以使用一定的压缩技术压缩。(bowtie中没用)