K单体型重建算法的研究
【摘要】:随着新一代基因测序技术的飞速发展,以及
单体型数据
在人类遗传学等领域研究和应用的不断深入,对单体型数据的研究开始转向其他生物物种。由于测序技术的限制,通过生物学实验的手段直接测定单体型的代价过于昂贵,因此,基于
DNA片段数据
的单体型组装技术的研究仍然是这些应用得以大规模推广的必要手段。由于许多其他物种的单体型个数均大于2,现有求解二倍体单体型的算法无法应用于这些物种的单体型组装,因此研究适用于这些物种的
K单体型组装算法
具有重要的科学研究价值和现实意义。本文针对K单体型组装算法进行研究。 论文首先介绍了K单体型组装问题的相关背景知识和研究意义,阐述了其研究现状和进展。K单体型计算问题可分为K值已知和K值未知两种情况。本文分别对这两种情况的计算问题进行研究,提出了基于遗传算法的求解方法,并通过大量的实验对算法进行性能分析。
具体内容如下: 针对K值已知的情况,对K值取3的三倍体单体型重建问题进行了研究,基于最少错误更正模型,提出了重建三倍体个体单体型的遗传算法GTIHR。算法采用了新颖的染色体编码方法和有效的遗传算子,其较短的染色体编码方式能够构造较小的解空间,从而使得算法快速收敛到最优解,此外,提出的遗传算子通过对染色体注入随机信息而避免早熟现象,并在优化过程中,有效地利用SNP片段中的信息来逐步修正染色体编码取值。由于真实的DNA片段数据一般很难得到,实验采用鸟枪法测序模拟片段生成器CELSIM生成片段数据。
通过对算法进行测试表明,GTIHR算法能够获得更高重建率的单体型,实际使用价值较强。 针对K值未知的情况,对病毒准种单体型重建问题进行了研究。在“已纠错”片段的基础上,提出一种求解该问题的遗传算法GVQHR。针对病毒准种组装问题的特点设计了有效的染色体编码及爬山算子。染色体采用可变长的字符串集合进行编码,爬山算子首先随机去除准种中的某些单体型,然后根据剩余单体型及片段集合重新组建新的准种。
算法采用HIV-1型病毒基因进行实验测试。实验结果显示,在各个参数设置下,算法GVQHR能获得较好的重建效果,对进一步科研工作具有一定价值。
本文对K单体型组装算法进行研究,并提出了能够较好地重建三倍体个体单体型和病毒准种单体型的方法。这些研究工作为单体型数据在其他生物物种上的研究提供了参考和有效依据。