多倍体单体型组装算法研究
【摘要】:人类已知的疾病都与基因有着直接或者间接的联系,研究不同个体间基因序列的差异对于了解人类的遗传,以及预防疾病等方面都有着重要的作用。SNP是单核苷酸多态性,主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。一个区域中倾向于以整体遗传给后代的SNP序列被称作是单体型。但受到测序技术的限制,直接通过测序得到完整的单体型序列十分困难,因此如何将测序得到的片段组装成单体型起来成为了一个新的难点。现有的单体型组装问题根据其优化原则大致有MSR,MFR,MEC等几类,这些问题绝大多数是NP-难的,多倍体单体型的组装由于其复杂的分型情况,缺乏有效的实用算法。由于新一代测序技术成本的降低和片段长度的增加,从测序片段重建多倍体基因组的多个单体型变得可行。本文提出了两个在新一代测序技术下的多倍体单体型组装算法Qhap和QChap算法。这两个算法都是基于MEC算法的改进。Qhap算法通过限制SNP矩阵中每一列的最大翻转数,大大降低了时间复杂度;同时引入了置信度分析,使得得到的单体型更加符合真实情况。对于从k-倍体基因组测序得到的片段,该算法试图将片段划分成k组,使得翻转位点的置信度分数总和最低。QChap算法是在Qhap算法的基础上,每列最大翻转个数由固定值改进为随着测序错误率和每列覆盖度变化情况而动态调整的值。在模拟和真实数据上的大量实验测试结果表明,Qhap和QChap算法可以有效地解决多倍体单体型组装问题,并且比近期的多倍体单倍型组装算法更快,更准确。