Index Similar DNA Sequence 多基因组索引技术笔记

最新推荐文章于 2024-04-07 21:46:30 发布

stormlovetao

最新推荐文章于 2024-04-07 21:46:30 发布

阅读量2.4k

点赞数

分类专栏： Mapping 文章标签： c 数据库算法存储

本文链接：https://blog.csdn.net/stormlovetao/article/details/7354543

版权

本文探讨了在多基因组索引中如何利用高度相似性来节省内存。提出两种模型：基因间SNP区间模型和随机性变异模型。通过建立特殊索引结构，如BWT和SAR，显著减少了存储需求，使得处理大规模基因组数据成为可能。

摘要由CSDN通过智能技术生成

Indexing Similar DNA Sequences

研究背景：

研究物种的基因变异经常需要挖掘多条非常相似的基因组序列之间的信息。例如当我们研究由于基因组中某几个碱基突变引发的疾病时，经常需要对多组正常人和患者的基因组中相同DNA区域进行对比试验。我们需要对比研究几个甚至几百个不同人的基因组，每个基因组序列长度可达几百万碱基甚至几亿碱基。当我们研究这些相似基因组序列时，一个非常普遍的操作就是在这些基因组上搜索某段序列。因为基因组非常大，为了节省搜索时间，我们必须对其建立有效的索引结构。

很直观的一种想法就是将所有的基因组看做一整条很长的序列，然后利用后缀树建立索引或者用BWT方法建立压缩索引。但是这些索引需要的内存空间将会远远的超过主流PC机的负载能力。一般来说，对一个碱基建立索引，用后缀树方法需要10字节，用BWT方法也需要0.5-1个字节，像其他压缩索引技术比如CSA、FM-index将会使用更多空间。假如women对250个基因组建立索引，每个基因组有2亿碱基，对它们建立索引的话，就是用BWT方法也得需要大约40GB内存，无疑我们普通的电脑是无法承受的。这个想当然的处理方法的最大弊端在于没有有效的利用基因组之间的高度相似性。基因组之间有大约95%的序列时相同的，我们可以充分利用这些相同的部分&#