面向三代测序的序列比对算法研究与优化
宋思怡
中国科学技术大学
摘要:近年来,三代测序技术的发展为基因组学带来了重大变革和影响。但由于三代测序序列具有平均长度长、错误率高的特性,现有的三代测序序列比对算法在数据分析的工作流中占据了大量的时间。因此,如何快速、准确地将大规模的测序序列比对到参考基因组上是三代测序序列比对面临的一大挑战。目前主流算法大多采用种子扩展(seed-and-extend)方法,包括过滤出候选位置和进行比对验证两个阶段。过滤和验证是影响算法性能的关键环节,为了加快序列比对的速度,本文对过滤方法的特征选取和验证阶段的索引技术进行了较为深入的研究,主要工作和贡献如下:(1)过滤方法设计及优化对已有过滤方法进行分析,它们使用全部种子来过滤候选位置,如此要处理的种子数很多且针对性不强,导致过滤时间过长。我们的实验表明过滤时低频率的种子往往具有更高的区分度,同时低频种子也可以有效地减少计算量。基于此,本文提出了一种基于低频种子的过滤方法,根据基因组的规模动态地选取低频率的种子,使用低频种子进行投票定位候选区域。过滤得到的候选区域数目也是过滤方法的重要衡量标准。为了进一步减少候选区域的数目,我们对过滤方法进行了优化,提出了相邻窗口合并、候选窗口验...更多
关键词:
- 专辑:
基础科学;信息科技
- 专题:
生物学;计算机软件及计算机应用
- 分类号:
Q811.4;TP391.41
导师:
徐云;
学科专业:
计算机软件与理论
硕士电子期刊出版信息:
年期:2019年第09期网络出版时间:2019-08-16——2019-09-15