Nanopore sequencing technology and tools for genome assembly: computational analysis of the current

Nanopore sequencing technology and tools for genome assembly: computational analysis of the current state,bottlenecks and future directions  Nanopore 测序技术和基因组组装工具:当前状态、瓶颈和未来方向的计算分析

      纳米孔测序技术有潜力淘汰其他测序技术,因为它能够产生长读,并提供可移植性。然而,高错误率的技术提出了一个挑战,同时产生准确的基因组装配。用于纳米孔序列分析的工具至关重要,因为它们应该克服该技术的高错误率。我们在这项工作中的目标是全面分析当前公开可用的纳米孔序列分析工具,以了解它们的优点、缺点和性能瓶颈。为了开发更好的工具,了解当前工具在哪些方面表现不好是很重要的。为此,我们

(1)使用纳米孔序列数据分析多个步骤和基因组组装管道中的相关工具,

(2)为确定每个步骤的适当工具提供指导。

基于我们的分析,我们提出了四个关键的观察结果:

(1)在克服纳米孔测序技术的高错误率方面,基础检测工具的选择起着至关重要的作用。

(2)read-read overlap find Tools(GraphMapMinimap)在准确性方面表现相似。然而,Minimap的内存使用量较低,而且它比GraphMap更快。

(3)在选择合适的装配工具时,需要在精度性能之间进行权衡。

快速但精度较低的装配体可用于快速的初始装配,并可在其上进行进一步的抛光以提高精度,从而提高整体装配速度

(4)最先进的抛光工具Racon产生高质量的一致序列,同时提供了比另一种抛光工具Nanopolish显著的加速。

我们分析了不同工具的各种组合,并揭示了准确性、性能、内存使用可伸缩性之间的权衡。

我们的结论是,我们的观察可以指导研究人员和从业人员使用纳米孔序列数据对基因组组装管道的每一步做出有意识的和有效的选择。此外,在我们发现的瓶颈的帮助下,开发人员可以改进现有的工具或构建新的工具,以克服纳米孔测序技术的高错误率。

Introduction

自2005年以来,新一代测序(NGS)技术已经彻底改变并主导了基因组测序市场,因为它们能够以更快的速度更低的成本生成大量数据[1 3]。能够快速、准确地处理和分析如此大量数据的成功计算工具的存在,对于利用NGS技术在科学、医学和技术上的优势至关重要。

由于大多数生物的整个基因组不能同时测序,基因组被分成更小的片段。每个片段测序后,会产生一小段DNA序列(即reads)。然后可以通过以下两种不同的方法分析这些读操作:读映射从头组装读映射是根据参考基因组调整读的过程,以检测已排序的基因组中的变化。重新组装是指当一个参考基因组不存在时,将读序列结合起来构建原始序列的方法。由于基因组中的重复区域,最主要的NGS技术(如100 150 bp reads)的短读长度导致了读映射的错误和歧义[5,6],并给从头装配[7]带来了计算挑战和准确性问题。重复序列通常比短读的长度长,一个完整的重复序列不能由一个短读跨越。因此,短读会导致高度碎片化不完整的组装[7 9]。然而,长读可以跨越整个重复序列,并支持连续和完整的组装器。对测序技术的需求可以产生更长的解读,导致出现了甚至更新的替代测序技术。

纳米孔测序技术[10]就是这种可以产生长read长度的技术的一个例子。纳米孔测序是一种新兴的、有前途的单分子DNA测序技术,它具有许多有吸引力的特性,并有可能在不久的将来超越目前的测序技术。Nanopore测序具有测序通量高、成本低、读取长度长等优点,测序前不需要扩增步骤[11 14]。

使用生物纳米孔进行DNA测序在20世纪90年代的[15]被首次提出,但是第一个纳米孔测序设备MinION[16]直到最近(2014年5月)才由牛津纳米孔技术公司(ONT)商业化。MinION是一种廉价的、口袋大小的、便携的、高通量测序仪器,可以实时生成数据。这些特性为基因组测序提供了新的潜在应用,如埃博拉病毒、寨卡病毒或其他流行病的快速监测、近距离患者检测以及其他需要实时数据分析的应用。此外,奴才技术有两大优势。首先,它能够生成超长的读取(例如882千碱基对或更长[19,20])。MinION s long reads通过减少计算量大大简化了基因组装配过程[8,21]。其次,它体积小,便于携带。“小黄人”被命名为第一个用于外层空间的DNA测序设备,借助其体积和可携带性帮助探测宇宙其他地方的生命。通过对奴化装置和纳米孔化学的不断更新,仅使用MinION装置[19]就生成了第一个纳米孔人类参考基因组。

结论:

我们分析多个步骤和相关的基因组中先进的工具组装管道使用纳米孔序列数据的准确性、速度、内存效率可伸缩性(我们留给未来工作定量研究工具对不同纳米孔测序的应用,如变异召唤,修改检测基地(即。甲基化研究[91])和病原体检测。通过对整个管道的实验分析,得出了四个主要结论。

首先,具有更高精度和性能的基础调用工具,如Scrappie,可以克服nanopore测序技术的主要缺点,即错误率高。

其次,read-to-read重叠查找工具(Minimap和GraphMap)在准确性方面也有类似的表现。但是,在速度和内存使用方面,Minimap比GraphMap表现得更好,因为它只存储最小化器,而不是所有的k-mers,而且当运行在内存相对较小的机器上时,GraphMap是不可伸缩的。

第三,快速但精度较低的汇编程序Miniasm可用于快速初始装配,并可在其上进行进一步抛光以提高最终装配的精度。

第四,一个最先进的抛光工具,Racon,产生高质量的一致序列,同时提供了一个显著的加速超过另一个抛光工具,纳米级。

我们希望并相信,我们的观察和分析将指导研究人员和从业人员在使用纳米孔序列数据决定基因组组装管道的每个步骤的不同工具时做出有意识和有效的选择。我们还希望我们发现的瓶颈或设计选择的影响能够帮助开发人员构建新的工具或改进现有的工具。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wangchuang2017

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值