Non Hybrid Long Read Consensus Using Local De Bruijn Graph Assembly

参考:https://www.biorxiv.org/content/biorxiv/early/2017/02/06/106252.full.pdf

Non Hybrid Long Read Consensus Using Local De Bruijn Graph Assembly

非混合长read共识 使用局部De Bruijn装配

While second generation sequencing led to a vast increase in sequenced data, the shorter reads which came with it made assembly a much harder task and for some regions impossible with only short read data. This changed again with the advent of third generation long read sequencers. The length of the long reads allows a much better resolution of repetitive regions, their high error rate however is a major challenge. Using the data successfully requires to remove most of the sequencing errors. The first hybrid correction methods used low noise second generation data to correct third generation data, but this approach has issues when it is unclear where to place the short reads due to repeats and also because second generation sequencers fail to sequence some regions which third generation sequencers work on. Later non hybrid methods appeared. We present a new method for non hybrid long read error correction based on De Bruijn graph assembly of short windows of long reads with subsequent combination of these correct windows to corrected long reads. Our experiments show that this method yields a better correction than other state of the art non hybrid correction approaches.

虽然第二代测序导致了测序数据的大量增加,但随之而来的较短read使得装配成为一项更加困难的任务,而且对于某些区域来说,仅使用较短的read数据是不可能的。

随着第三代长读测序仪的出现,这种情况再次发生了改变。

长读的长度允许更好地解决重复区域,但它们的高错误率是一个主要的挑战。

成功地使用数据需要消除大多数测序错误。

第一个混合校正方法用低噪声第二代数据正确的第三代数据,但是这种方法有问题时不清楚短读的位置由于重复也因为第二代测序失败序列一些第三代测序工作的区域。后来出现了非混合方法。提出了一种新的非混合长读纠错方法,该方法基于长读短窗口的德布鲁因图集,并将这些长读短窗口组合起来进行长读纠错。

实验结果表明,该方法比其他非混合校正方法具有更好的校正效果。

 

第一代测序可以确定重要基因组的基因组序列,如人类(cf.[14,28])和苍蝇(见[3])基因组。虽然该技术适合实现这些非常重要的目标,但对于许多应用程序来说,它太昂贵、速度太慢。第二代测序带来了高通量测序的出现,而且更加经济和快捷。

然而,第二代技术,特别是考虑到基因组组装的应用,其主要缺点是产生比第一代更短的读长。第二代读取通常不超过150个碱基对(bp)长,与以前使用的平均读取长度为700bp的第一代读取相比,能够更低地正确解析基因组重复区域。

像由太平洋生物科学公司(PacBIO)和牛津纳米孔公司(Oxford Nanopore)制造的第三代测序仪,其测序长度可达50000 bp,平均为15kb。此外,这些测序仪可以在单分子上工作,这在原则上使聚合酶链反应(PCR)变得不必要,从而消除了这一过程中产生的偏差。然而,这些特性的代价是平均基础错误率大大提高,达到15%甚至更高。这给算法带来了巨大的挑战。

有效地处理在许多情况下获得的数据,包括单核苷酸多态性(SNP)检测和基因组装配,需要纠正这些错误中的大部分。第二代错误校正主要处理短读数据中常见的替换错误,不适合处理长读数据,因为长读数据中的大多数错误是插入或删除。第一个用于纠正第三代读取错误的算法方法使用了第二代读取(参见[4,10,18,24])。这些方法被称为混合,因为它们结合了两种不同类型的测序数据。然而,这种方法不可避免地会遇到两个问题。

首先,如果长读重复了长读,而短读不能解决这个问题,那么往往不清楚在长读上应该将短读数据映射到哪里。其次,短读数据存在放大偏差,因此对于某些可以使用第三代技术成功测序的区域,将不会覆盖通过第二代数据。

最近建立了仅基于第三代数据的非混合方法(如[6,7,12,25])。提出了一种基于局部德布鲁因图集的非混合长读误差校正方法。虽然基于基因组宽的德布鲁因图的装配是不可行的使用长读数据,我们表明,即使在高错误率的情况下,德布鲁因图的方法在小窗口是有效的。实验表明,我们的方法与以前发表的工作是有竞争力的。

Conclusion 
 We have presented a new method for long hybrid long read error correction. The approach is practical and our implementation outperforms state of the art competitors in terms of reconstruction accuracy. In upcoming work we will discuss more involved alignment filtering to remove repeat induced alignments and thus improve error correction for long repeat regions. While our approach works for data produced by Oxford Nanopore sequencers the resulting corrected data still contains a high rate of errors. Solving this may require a more sophisticated model for sequencing events.

结论

提出了一种新的长混合长读纠错方法。该方法是实用的,我们的实现在重建精度方面超过了现有的竞争对手。

在接下来的工作中,我们将讨论更复杂的校准滤波,以消除重复诱导的校准,从而改进长重复区域的误差校正。

虽然我们的方法适用于由牛津纳米孔测序仪产生的数据,但得到的校正数据仍然包含很高的错误率。

解决这个问题可能需要一个更复杂的事件排序模型。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wangchuang2017

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值