CoLoRMap: Correcting Long Reads by Mapping short reads CoLoRMap:通过映射短读来纠正长读

CoLoRMap: Correcting Long Reads by Mapping short reads

CoLoRMap:通过映射短读来纠正长读

Motivation:

第二代测序技术为测序基因组数量的异常增长铺平了道路,包括原核和真核。然而,短读很难组装,并且常常导致高度碎片化的组装。长读测序方法的最新进展为解决这一问题提供了一种有希望的方法。然而,到目前为止,长读操作的特点是错误率高,从长读操作进行组装需要较高的覆盖深度。这推动了混合方法的开发,利用高质量的短读来纠正长读中的错误。

Results:我们介绍了一种混合方法CoLoRMap,用于校正长read,例如PacBio测序技术产生的长读,使用高质量的Illumina双端读映射到长读。我们的算法基于两个新颖的思想:使用经典的最短路径算法找到一个重叠的短读序列,将编辑分数最小化为长读,并通过映射短读的未映射伙伴的本地装配扩展校正区域。我们在细菌、真菌昆虫数据集上的结果表明,与现有的混合校正方法相比,CoLoRMap具有较好的效果。

Introduction

   高通量测序(HTS)技术在基因组学和精密医学领域的许多最新进展是通过对大量基因组集合的应用而实现的。HTS技术自诞生以来就在不断发展(Margulies等人,2005),特别是最近引进了单分子测序技术,如太平洋生物科学(Eid等人,2009;Korlach等人,2010)和牛津纳米孔测序仪(Cherf等人,2012);艾森斯坦,2012年;曼劳等人,2012年)。

  尽管HTS技术已经证明了它们在编目正常人类基因组变异(1000个基因组项目联盟,2010年,2012)、发现导致突变的疾病(O’roak et al.,2011)和构建新的基因组组装(Gnerre et al.,2011)方面的能力,但对它们产生的数据的计算分析仍然具有高度挑战性。目前流行的测序技术的主要局限在于其相对于普通重复序列长度的短读长度(Alkan et al.,2011;Hormozdiari et al.,2009)。

太平洋生物科学公司(pacific biosciences)和牛津纳米孔公司(oxford nanopore)的新技术正在产生更长的读取时间,从而有可能克服中短程重复的困难。这种技术用于从头组装(Ee et al.,2014;Ferrarini et al.,2013;Hoefler et al.,2013)、混合从头组装(Goodwin et al.,2015;Gross et al.,2013;Koren et al.,2012)(其中长读数与illumina的低误差短读数混合)、填补脚手架空隙(English et al.,2012;Lam et al.,2015)。基因组整理(Bashir et al.,2012;Brown et al.,2014;Chin et al.,2013)、GC富集区和复杂区的重建(Huddleston et al.,2014;Scott and Ely,2015;Shin et al.,2013)和结构变异检测(Chaisson et al.,2015;Doi et al.,2014;Ummat and Bashir,2014)。人们可能会认为,读取时间越长,总体分析就越容易,但由于它们的高排序错误率,这些技术生成的读取很难处理。事实上,Pacbio(Thompson and Milos,2011;Travers et al.,2010)和Oxford Nanopore(Goodwin et al.,2015)的错误率分别高达20%和35%,这些读数无法直接用于为Illumina技术开发的下游分析管道。

为了提高读取的质量,开发了许多工具(参见Laehnemann等人,(2016)对错误纠正工具的回顾)。这些工具可以分为两类:(i)自校正方法和(ii)混合方法。在“自校正”方法中,其思想是通过只使用长读来校正长读。在这种方法中,读取之间的多重序列比对是通过每两个长读取的成对比对(全比对)来构建的。在此基础上,建立了具有较高质量序列的一致序列。该方法已在HGAP(Chin等人,2013)中实现,HGAP是一种能够处理细菌基因组数据的非混合汇编程序。最近引入的汇编程序Canu (Berlin et al.,2015)依赖于局部哈希的思想来检测长读之间的重叠,并使用重叠图来组装它们。另一方面,混合方法。PacBioToCA (Koren et al.,2012),LSC (Au et al.,2012),proovread(Hackl et al.,2014),LoRDEC (Salmela and, 2014)]试图联合利用高质量的短读和嘈杂的长读来纠正长读。PacBioToCALSC地图的短读(如。将长读映射到长读上,并通过调用这些短读映射的一致性来纠正长读;proovread使用了类似的思想,只是在映射和校正的迭代过程中,灵敏度不断提高。Nanocorr(Goodwin et al., 2015)和LoRDEC(Salmela and, 2014)采用了一种与本地组装类似的不同方法。Nanocorr依赖于计算重叠读取的最长递增子序列(LIS)。相反,LoRDEC从短读构建一个De Bruijn图,然后通过在长读的实区之间寻找一条路径,将每个长读对齐到这个De Bruijn图,该路径的目的是用区域序列最小化编辑距离。

自校正方法的一个主要缺点是,它需要大量的计算能力,以便执行长读的全对全比对,以发现它们之间的重叠,尽管最近的进展需要较少的资源(Berlin等人,2015)。更重要的是,使用自校正方法需要至少50倍的长读覆盖率(Koren和Phillippy,2015年),以便找到可以用于纠错。考虑到单分子测序技术的低通量,获得50个覆盖率是昂贵的。混合方法的优势来自于这样一个事实,即可以以更低的成本生成高通量的短读,从而补充来自同一供体的低覆盖长读。

我们介绍了一种混合方法CoLoRMap,它利用高质量的短读和纠正长读的噪声。与LSC和PacBioToCA类似,CoLoRMap将短读映射到长读作为第一步。但是它不寻找一个共识基地呼叫在每个基地,但制定纠正的问题很长的阅读区域作为本地装配问题旨在找到一个最优路径重叠映射短读最小化编辑评分的长阅读区域,一个可以解决的问题完全使用经典的最短路径算法(SP);因此,我们的标准与Nanocorr中定义的标准不同,后者基于最长递增子序列方法(注意,在提交时,Nanocorr中使用的目标函数的精确定义是不可用的;它只是声明,它惩罚重叠,同时最大化对齐长度和精度'),虽然一般原则是类似的。接下来,在第二个步骤中,CoLoRMap地址的问题纠正长期阅读区域,由于更高的错误率,不短读映射(称为缺口),使用的想法新创的一端锚(OEA),地图上未标明的读取的伴侣映射到一个侧翼纠正。

为了评估CoLoRMap,我们将其应用于三个数据集,一个细菌基因组,一个真菌基因组和一个昆虫基因组,并将我们的结果与PacBioToCA, LSC, proovread和LoRDEC的结果进行比较。我们观察到CoLoRMap纠正读的准确性与LoRDEC的准确性,PacBioToCA proovread,同时更长的读纠正CoLoRMap对齐到参考基因组与其它方法相比,无论是纠正读取次数对齐到参考基因组以及对齐区域的总大小。例如,对于细菌基因组数据,在全部校正长序列后,89.7%的长序列碱基与参考基因组比对,平均比对率为99.38%,而LoRDEC比对率为86.9%,平均比对率为99.48%。我们还观察到,使用修正后的长读,由Canu assembler (https://github.com/marbl/canu)生成的程序集的CoLoRMap质量稍好一些

与大多数混合的纠错方法类似,CoLoRMap的输入有两组读操作,即短读操作和长读操作,它们来自于同一个输入源。CoLoRMap首先使用BWA-MEM将短读映射为长读(Li, 2013)。然后,它使用从BWA-MEM获得的映射集来构建类似于重叠图的图结构。使用多项式时间SP算法,然后,CoLoRMap可以重建一个重叠的映射短读序列,使覆盖的长读区域的编辑分数最小化,并可以用作该区域的校正序列。

由于短读和长读都是从相同的输入源进行排序的,映射的短读通常覆盖长读的很大一部分(见表5)。然而,由于它们被映射到有噪声的长读,长读上的一些区域不被任何短读覆盖,我们称之为间隙,因为它们位于长读的末端,或在两个校正区域之间。在第二步中,CoLoRMap尝试使用OEAs扩展正确的区域,OEAs是那些没有映射到长读的读操作,但是对应的读操作被映射到长读操作的正确区域的读操作。对于每个gap,CoLoRMap然后使用Minia (Chikh and Rizk,2013)来执行与gap相关的OEAs集合的本地装配,并使用获得的contigs来纠正gap。

3 Results

3.1 Data and computational setting

3.2评价措施

为了检查校正方法的性能,我们跟踪了(Salmela和竞争对手,2014),并调查了校正良好的长读序列如何与参考基因组对齐,然后检查校正良好的长读序列如何用于从头组装。为了将long reads映射到参考基因组,我们使用了BLASR (Chaisson and Tesler, 2012)和BWA-MEM (Li, 2013)。使用这两种工具进行评估的基本原理是,观察到通常有一些读取,其中一个工具发现映射,而另一个工具没有报告映射。BLASR是专门为调整PacBio长读到参考序列而设计的。使用选项-noSplitSubreads -bestn 1运行BLASR,为每个长读提供一个最佳对齐。BWA-MEM是一个快速对齐工具,它支持将长读映射到参考序列,并且可以通过选项-x pacbio处理嘈杂的pacbio长读。需要注意的是,很多时候BWA-MEM报告的是长读的多块映射,而不是一个连续的对齐。在我们的评估中,如果这些片段在引用上的映射位置之间的距离不大于长读的长度,我们仍然考虑长读的所有这些片段对齐。我们考虑的第一个评估指标是与参考基因组对齐的长读数。我们还记录了校正长读数中对齐的碱基的数量,以及与对齐中的参考值匹配的碱基的数量。我们在(Salmela and, 2014)中计算了身份的概念,定义为参考基因组中比对区域长度的碱基匹配数。

3.2.1纠正读数的修边、分切

在比较的校正工具中,CoLoRMap和LoRDEC报告全长读,用大写表示校正后的高质量区域,用小写表示未校正的区域。proovread输出完整的校正长读(但不标记校正区域)和作为独立序列的校正区域。然而,PacBioToCA仅输出作为独立序列的长读校正区域。我们评估了从CoLoRMap、LSC、LoRDEC和proovread获得的完整长读,以及在保留间隙(未校正区域的两侧有校正区域)的情况下从长读的两端删除所有未校正的碱基后获得的修剪长读。为了与PacBioToCA和proovread进行比较,我们还评估了从CoLoRMap和LoRDEC中分离出来的长读序列,这些长读序列是通过从长读序列中提取正确的区域得到的,每个区域都被认为是一个单独的序列。

3.3基于比对的比较

实验结果见表2-5。这些结果是基于BLASR的校准(参见补充资料,以获得基于BWA-MEM校准的相同结果)。我们可以观察到,CoLoRMap在校正回参考基因组的读数方面表现最好,同时保持较高的平均水平,尽管略低于PacBioToCA、LoRDEC和proovread。同样有趣的是,OEA步骤对校正区域的大小有不可忽视的改进,同时也提高了被修剪读的平均一致性。在校正区域方面,proovread计算最长的区域,看看是否有可能将proovread的分层方法与我们的算法结合起来,这可能会很有趣。

3.4基于装配的比较

除了比较校正后的长读的质量,我们还研究了不同工具的校正后的长读可以用于下游分析任务的程度。我们选择了De novo组件的任务,因为存在一个专门的汇编程序,CANU(柏林等人,2015),可用于长时间的噪声读取。为了评估组装contigs的质量,我们使用了quast(gurevich等人,2013)。

补充表s5-s7显示了通过运行由不同校正工具校正的长读数集上的CANU获得的组件的QUAST输出。对大肠杆菌和酵母菌数据集的观察表明,从我们校正的长读数据中组装的一组contig具有最高的NGA50、较低的不匹配数和索引,更好地覆盖参考基因组。然而,果蝇黑腹果蝇数据集的集合似乎并不可靠,这可能是由于长读的覆盖率较低(覆盖率为9.7,而canu建议覆盖率至少为50倍)。

Discussion

我们描述了一种新的长读校正方法CoLoRMap,它的主要特点是

(i)依赖于一个SP算法应用于一个加权对齐图,以找到一个校正后的序列,使长读和的编辑分数最小化(ii)使用未映射的短读(即所谓的OEAs)配对扩展初始校正。

我们的实验结果表明,CoLoRMap与现有的方法相比有很好的效果,特别是对长读的校正,可以映射到参考文献中,并用于下游分析,比现有方法在保持较高精度的同时对长读的校正效果更好。

CoLoRMap算法的基本原理是将两种一致方法(如proovread)和基于优化的方法(如LoRDEC和Nanocorr)的优点结合起来。作为共识方法,我们的确依靠映射读取,即正确的地区使用映射读取(SP算法)或映射的伴侣读(OEA算法),但是,与LoRDEC一样,我们也占短读的全局上下文选择校正利用SP算法的优化准则。

第一步的原则类似于最近的Nanocorr修正方法,尽管有不同的客观标准(将编辑分数最小化到长读)。与LoRDEC(也考虑最小化编辑距离,但采用启发式方法)一起,这些方法与基于一致性的方法有很大的不同,并且这些基于对齐的优化方法获得的结果与基于一致性的方法(proovread和PacBioToCA)相比更优。

由于这一步依赖于短读到长读的映射,因此映射工具的性能对纠错性能的影响是不可避免的。为了减轻这种影响,CoLoRMap允许用户选择块的大小,以便在准确性和运行时间之间进行权衡(参见补充表S2)。另一种可能的解决方案是使用带有仔细参数选择的all-mapper工具。这种工具的一个例子是mrFAST-2.5 (Xin et al.,2013)。

我们方法的第二步依赖于基于映射的方法中通常不考虑的数据,即未映射读取。我们的实验表明,OEA的加入显著地改善了修正区域的大小,甚至平均特征。这显示了这种有针对性的reads招聘方法的潜力,其原理已被用于其他问题,如填补空缺等。这将是有趣的,看看使用LoRDEC原则只有在这些读取(即试图最小化的编辑距离De Bruijn基于装配的OEA读)将改善的质量校正尽管错误的初始比例高的长阅读差距阻止任何短读的对齐。同样值得探索的是一种迭代方法,它将尝试基于在修正区域中组装的读检测新的OEA。未校正区域的平均小尺寸(表5)表明,这可能会显著提高校正长读的分数。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wangchuang2017

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值