为了进一步提升组装错误检测算法的性能,本文提出了一种新的算法一 ReMILO,同时使用短读长和相似物种的基因组以及长读长来检测组装错误。 ReMILO引入例如多种数据源,选择参考基因组和长读长,主要是基于以下两点:
(1)随着第二代测序技术成本的下降,越来越多物种的基因序列被测定。因 此,使用一个相似物种的基因组来提高重叠群的质量变得可行。Schneeberger127]通过将短读长比对到参考基因组上来重组重叠群,Aligngraph[28]借助参考基因组来扩展预组装的重叠群。RACA[291和Ragout[301分别借用一条参考基因组和多条参考基因组来将重叠群组装成scaffolds, misFinder是唯一使用了参考基因组来检测组装错误的算法。
(2)为了克服第二代测序技术短读长长度的限制,第三代测序技术的代表一 PacBio SMRT在2010年的时候发布了,它可以产生5k到15k左右长度的长读长,大约每百万个碱基花费0.4-0.8$,考虑到相对较高的花费,低到中等覆盖度的长读长和短读长一起用来进行高质量的组装。当长读长的覆盖度比较低时,PBJelly2[32]通过使用长读长来填充scaffold中的缺失部分,当覆盖度为中等时,Celera[331, SPAdes[34], Cerulean [311, dbg2olc [36]使用长读长和短读长混合来组装更长和更完整的重叠群。 然而,目前还没有专门设计的算法使用长读长来检测组装错误。
ReMILO是基于多种数据类型纠错的算法,算法稳定性也会受参考基因组相似度和长读长覆盖度的影响,不过由于参考基因组和长读长集合的选择都比较广泛,所以性能相对是比较稳定的。另外,获得这两种数据源的成本是比较低的,参考基因组可以从公开的数据仓库获取,长读长较低的覆盖度就可以满足要求,尤其是对于那些使用长读长和短读长混合组装的项目。综上所述,使用参考基因组和长读长来辅助检测组装错误是可行的。ReMILO的主要创新点如下: ReMILO的创新点主要有两个: (1) ReMILO结合多种数据源来实现最好的检测性能。ReMILO同时使用了