ReMILO

最新推荐文章于 2025-04-26 21:50:09 发布

wangchuang2017

最新推荐文章于 2025-04-26 21:50:09 发布

阅读量150

点赞数

分类专栏： PacBio long read 文章标签： ubuntu

本文链接：https://blog.csdn.net/u010608296/article/details/119981345

版权

文献同时被 2 个专栏收录

170 篇文章

订阅专栏

PacBio long read

13 篇文章

订阅专栏

为了进一步提升组装错误检测算法的性能，本文提出了一种新的算法一 ReMILO，同时使用短读长和相似物种的基因组以及长读长来检测组装错误。 ReMILO引入例如多种数据源，选择参考基因组和长读长，主要是基于以下两点:

(1)随着第二代测序技术成本的下降，越来越多物种的基因序列被测定。因此，使用一个相似物种的基因组来提高重叠群的质量变得可行。Schneeberger127]通过将短读长比对到参考基因组上来重组重叠群，Aligngraph[28]借助参考基因组来扩展预组装的重叠群。RACA[291和Ragout[301分别借用一条参考基因组和多条参考基因组来将重叠群组装成scaffolds, misFinder是唯一使用了参考基因组来检测组装错误的算法。

(2)为了克服第二代测序技术短读长长度的限制，第三代测序技术的代表一 PacBio SMRT在2010年的时候发布了，它可以产生5k到15k左右长度的长读长，大约每百万个碱基花费0.4-0.8$,考虑到相对较高的花费，低到中等覆盖度的长读长和短读长一起用来进行高质量的组装。当长读长的覆盖度比较低时，PBJelly2[32]通过使用长读长来填充scaffold中的缺失部分，当覆盖度为中等时，Celera[331, SPAdes[34], Cerulean [311, dbg2olc [36]使用长读长和短读长混合来组装更长和更完整的重叠群。然而，目前还没有专门设计的算法使用长读长来检测组装错误。

ReMILO是基于多种数据类型纠错的算法，算法稳定性也会受参考基因组相似度和长读长覆盖度的影响，不过由于参考基因组和长读长集合的选择都比较广泛，所以性能相对是比较稳定的。另外，获得这两种数据源的成本是比较低的，参考基因组可以从公开的数据仓库获取，长读长较低的覆盖度就可以满足要求，尤其是对于那些使用长读长和短读长混合组装的项目。综上所述，使用参考基因组和长读长来辅助检测组装错误是可行的。ReMILO的主要创新点如下: ReMILO的创新点主要有两个: (1) ReMILO结合多种数据源来实现最好的检测性能。ReMILO同时使用了