ReMILO

为了进一步提升组装错误检测算法的性能,本文提出了一种新的算法一 ReMILO,同时使用短读长和相似物种的基因组以及长读长来检测组装错误。 ReMILO引入例如多种数据源,选择参考基因组和长读长,主要是基于以下两点:  

  (1)随着第二代测序技术成本的下降,越来越多物种的基因序列被测定。因 此,使用一个相似物种的基因组来提高重叠群的质量变得可行。Schneeberger127]通过将短读长比对到参考基因组上来重组重叠群,Aligngraph[28]借助参考基因组来扩展预组装的重叠群。RACA[291和Ragout[301分别借用一条参考基因组和多条参考基因组来将重叠群组装成scaffolds, misFinder是唯一使用了参考基因组来检测组装错误的算法。    

(2)为了克服第二代测序技术短读长长度的限制,第三代测序技术的代表一 PacBio SMRT在2010年的时候发布了,它可以产生5k到15k左右长度的长读长,大约每百万个碱基花费0.4-0.8$,考虑到相对较高的花费,低到中等覆盖度的长读长和短读长一起用来进行高质量的组装。当长读长的覆盖度比较低时,PBJelly2[32]通过使用长读长来填充scaffold中的缺失部分,当覆盖度为中等时,Celera[331, SPAdes[34], Cerulean [311, dbg2olc [36]使用长读长和短读长混合来组装更长和更完整的重叠群。 然而,目前还没有专门设计的算法使用长读长来检测组装错误。

ReMILO是基于多种数据类型纠错的算法,算法稳定性也会受参考基因组相似度和长读长覆盖度的影响,不过由于参考基因组和长读长集合的选择都比较广泛,所以性能相对是比较稳定的。另外,获得这两种数据源的成本是比较低的,参考基因组可以从公开的数据仓库获取,长读长较低的覆盖度就可以满足要求,尤其是对于那些使用长读长和短读长混合组装的项目。综上所述,使用参考基因组和长读长来辅助检测组装错误是可行的。ReMILO的主要创新点如下:     ReMILO的创新点主要有两个:     (1) ReMILO结合多种数据源来实现最好的检测性能。ReMILO同时使用了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wangchuang2017

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值