Indexing Similar DNA Sequences
研究背景:
研究物种的基因变异经常需要挖掘多条非常相似的基因组序列之间的信息。例如当我们研究由于基因组中某几个碱基突变引发的疾病时,经常需要对多组正常人和患者的基因组中相同DNA区域进行对比试验。我们需要对比研究几个甚至几百个不同人的基因组,每个基因组序列长度可达几百万碱基甚至几亿碱基。当我们研究这些相似基因组序列时,一个非常普遍的操作就是在这些基因组上搜索某段序列。因为基因组非常大,为了节省搜索时间,我们必须对其建立有效的索引结构。
很直观的一种想法就是将所有的基因组看做一整条很长的序列,然后利用后缀树建立索引或者用BWT方法建立压缩索引。但是这些索引需要的内存空间将会远远的超过主流PC机的负载能力。一般来说,对一个碱基建立索引,用后缀树方法需要10字节,用BWT方法也需要0.5-1个字节,像其他压缩索引技术比如CSA、FM-index将会使用更多空间。假如women对250个基因组建立索引,每个基因组有2亿碱基,对它们建立索引的话,就是用BWT方法也得需要大约40GB内存,无疑我们普通的电脑是无法承受的。这个想当然的处理方法的最大弊端在于没有有效的利用基因组之间的高度相似性。基因组之间有大约95%的序列时相同的,我们可以充分利用这些相同的部分&#