Accurate self-correction of errors inlong reads using de Bruijn graphs LoRMA使用de Bruijn图对长read中的错误

Accurate self-correction of errors inlong reads using de Bruijn graphs  

            LoRMA使用de Bruijn图对长read中的错误进行精确的 自校正

LoRMA:通过逐步增加k-mer大小,LoRMA超过指定频率阈值的长读数据中迭代构造使用k-mersDBGs,并运行LoRDEC根据相应的DBGs纠正错误。然后,使用最终的DBG选择一组类似于每个称为friends的读操作,经过几轮修改后,应该会更加准确。然后,每一次阅读都由其朋友生成的一致序列进行纠正。

新的长读测序技术,如PacBio SMRTOxford NanoPore,可以产生长达50,000 bp的测序读,但错误率至少为15%。降低错误率是后续利用read的必要条件,例如重新组装基因组。纠错的问题可以通过将长读相互对齐来解决,也可以通过使用第二代测序技术产生的更精确的短读来纠正长读的混合方法来解决。提出了一种只使用长读的纠错方法。

该方法由两个阶段组成:首先,我们使用了一种迭代的无对齐校正方法,该方法基于k-mers长度不断增加的de Bruijn;其次,通过使用多个对齐发现的长距离依赖关系,对校正后的读数进行进一步的抛光。实验表明,该方法仅适用于高覆盖率的读集,是一种基于长读的最精确的方法。此外,当读取集的覆盖率至少为75x时,新方法的通量至少提高20%

      随着成本的降低,高通量DNA测序已成为生物研究领域的一项常见技术。虽然第二代测序仪产生了短而准确的读数,但太平洋生物科学公司(Pacific Biosciences)和牛津纳米孔公司(Oxford NanoPore)等新技术产生的读数高达5,0000bp长,但错误率至少为15%。虽然长read已被证明在基因组组装等应用中非常有用[11,15],但错误率对这些数据的利用提出了挑战。针对短read的纠错方法有很多[23,12],但由于长读的错误率较高,这些方法并不直接适用于长读。此外,短读纠错的研究大多集中在Illumina数据中占主导地位的不匹配问题上,而长读码纠错则更为常见。近年来,对长读数误差的校正方法也有了新的发展。这些方法可分为两类:一类是通过将高度错误的长read相互对齐来进行自我纠正,另一类是采用混合策略,即使用假定可用的准确短读来纠正长读。大多数独立的纠错工具,如proovread[9]LoRDEC[20]LSC[1]Jabba[16],都是混合方法。PBcR[10,3]是一种工具,可以采用混合或自校正策略。

大多数混合方法,如PBcRLSCproovread,都基于映射方法。他们首先将短读映射到长读上,然后根据基于映射短读的共识对长读进行纠正。PBcR将该策略扩展到PacBio读的自校正,使用概率位置敏感哈希计算长读之间的重叠,然后根据基于重叠读的共识对读进行校正。由于短读的映射需要时间和内存,LoRDEC通过构建短读的de Bruijn(DBG),然后将长读的数据通过这个图进行穿线来纠正,从而避免了映射阶段。Jabba是最近开发的一种工具,它也基于构建短读DBG。当LoRDEC在长读中找到完整k-mers的匹配时,Jabba搜索k-mers和长读之间的最大精确匹配,从而允许它在DBG中使用更大的k

        本文提出了一种基于De Bruijn多重对齐的长read自校正方法。首先,我们的方法执行类似于LoRDEC的初始校正,但只使用长读,并执行迭代校正轮与越来越长的k-mers。此阶段只考虑错误的本地上下文,因此忽略了长读过程中可用的远程依赖信息。为了捕获这种依赖关系,我们方法的第二阶段使用仔细选择的读取之间的多次对齐来进一步改进错误纠正。我们的实验表明,我们的方法是目前最准确的一个依赖于长read。我们的纠错后的读错误率小于只使用长读的PBcR纠错率的一半。此外,当读取集的覆盖率至少为75x时,我们的方法的校正读取集的大小至少比PBcR20%

        我们提出了一种新的方法,纠正长和高度错误的测序读取。我们的方法表明,有效的对齐自由方法可以应用于高度错误的长读数据。当前的方法需要对齐,以考虑错误的全局上下文。新方法的误码率小于原自校正方法误码率的一半。此外,新方法的通量比以前的自校正方法高出20%,读集的覆盖率至少为75x。最近提出了几种更新DBG的算法,而不是在k变化时从头构建DBG[4,5]。然而,这些方法并不直接适用于我们的方法,因为当我们在长时间读取上迭代运行LoRDEC时,读集也会发生变化。我们的方法只适用于长读,而之前的许多方法也需要Illumina测序等产生的短而准确的读,这可以将测序偏差纳入PacBio读。这可能会对序列质量产生非常负面的影响,特别是因为Illumina存在GC内容偏差和一些上下文相关的错误[22,17]。作为进一步的工作,我们计划改进方法,以扩大到哺乳动物的基因组大小。我们将研究增广DBG中路径标签的更紧凑表示,以替换当前使用的简单哈希表。利用已被证明与PacBio读取的[7]配合良好的部分顺序比对[14],还可以改进多比对结构。下一步工作的另一个方向是研究新方法在牛津纳米孔小分子平台生产的长读数上的适用性。Laver等人的[13]报告了这个平台的错误率为38.2%,他们也观察到了一些GC内容偏差。这两个因素都使纠错问题更具挑战性,因此,将这些数据上的方法进行比较将是有趣的。

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wangchuang2017

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值