Oxford Nanopore MinION Sequencing and Genome Assembly

Oxford Nanopore MinION Sequencing and Genome Assembly  

Oxford Nanopore MinION测序和基因组组装

摘要

       在成功的第二代测序(secondgeneration sequencing, SGS)技术之后,基因组测序的革命仍在继续。由太平洋生物科学公司(PacBio)领导的第三代测序(TGS)技术正在迅速发展,从以前只能提供数据进行小型基因组分析或进行靶向筛选,发展到可以为人类大小基因组提供高质量的从头组装和结构变异检测。

2014年,MinION,第一个使用纳米孔技术的商业化测序器,由牛津纳米孔技术(ONT)发布。MinION通过测量DNA链通过生物孔时产生的电导率变化来识别DNA碱基。它的可移植性、可负担性和数据产生的速度使它适合实时应用,长读排序器MinION的发布因此在基因组学界引起了极大的兴奋和兴趣。虽然新生基因组装配可以从SGS数据廉价生产,但装配连续性通常较差,因为短读处理长重复的能力有限。通过使用TGS长读,可以极大地提高装配质量,因为重复区域可以很容易地扩展为使用更长的测序长度,尽管在基本级别有更高的错误率。在需要快速和可靠的测序但资源有限的地方进行基因组监测的各种研究已经证明了纳米孔测序的潜力。

Introduction

       在过去的20年里,随着第一代和第二代测序技术的发展,基因组学发生了革命性的变化,使许多其他著名的项目得以完成,其中包括人类基因组计划[1,2]和1000个基因组计划[3]。第一种DNA测序方法是Sanger在1975年提出的[4,5],另一种方法是Maxam和Gilbert在1977年提出的[6],分别称为链终止法和化学测序法。与化学测序方法相比,链终止法更简单、更可扩展,最终被广泛应用于第一代测序。不同插入大小的DNA文库可以很容易地生成,这是很有用的,因为整个基因组装配受益于混合插入大小的读取。然而,第一代测序的低通量高成本导致了方法上的根本性转变,使我们转向SGS。大规模并行测序的革命始于2005年罗氏454 's焦磷酸测序系统的引入。随后,Illumina/Solexa公司于2007年推出了基于合成测序的基因组分析仪平台,ABI公司的固体系统采用了测序-连接[7]技术。SGS技术在过去十年中一直主导着测序市场,因为它能够以低廉的成本产生大量的数据。然而,由于很难解决基因组[7]中的重复序列,SGS产生的短读导致较大基因组的从头组装高度碎片化。与化学测序方法相比,链终止法更简单、更可扩展,最终被广泛应用于第一代测序。不同插入大小的DNA文库可以很容易地生成,这是很有用的,因为整个基因组装配受益于混合插入大小的读取。然而,第一代测序的低通量高成本导致了方法上的根本性转变,使我们转向SGS。大规模并行测序的革命始于2005年Roche 454's焦磷酸测序系统的引入。随后,Illumina/Solexa公司于2007年推出了基于合成测序的基因组分析仪平台,ABI公司的固体系统采用了测序-连接[7]技术。SGS技术在过去十年中一直主导着测序市场,因为它能够以低廉的成本产生大量的数据。然而,由于很难解决基因组[7]中的重复序列,SGS产生的短读导致较大基因组的从头组装高度碎片化。

    对操作速度更快、读取时间更长技术的需求导致了新测序方法的出现,即所谓的第三代测序(TGS)。主要的SGS平台通过合成(SBS)技术来调整测序,这些技术依赖于PCR来扩大给定DNA模板的簇。相比之下,TGS技术直接针对单个DNA分子,实现了实时测序,读取数据一旦通过测序器,就可以进行分析。TGS平台有三个重要的改进:(1)每次读取的读长从几十个碱基增加到几万个碱基;(2)将测序时间从天减少到小时(实时应用为分钟);(3)通过PCR扩增[8]减少或消除测序偏差。除了Helicos荧光测序(http://seqll.com/),第一个成功的单分子实时(SMRT)技术是由Pacific Biosciences (PacBio, http://www.pacb.com/)引进的。使用现代试剂和测序试剂盒,PacBio RS II系统的典型通量为每个SMRT细胞0.5-1 GB,平均读长约为10 kb。Nonetheless, PacBio reads 有 更高 的 错误率 (10%-15%) than SGS 读取 (<2%) [9].幸运的是,这些测序错误是随机分布的,因此可以通过使用循环一致测序(CCS)[10]大大降低测序率,其中一个分子模板及其补体链被测序多次,以产生一个独特的一致。

2014年,牛津纳米孔技术公司(ONT)通过一个早期访问项目(MinION access program, MAP)发布了一个新的TGS平台——MinION设备。ONT数据的读长剖面与PacBio非常相似,最大读长可达几十万碱基对[11,12]。然而,ONT reads的错误率高于PacBio reads,准确率在65%- 88%之间[11-13]。此外,此时,每MinION flowcell运行的通量不是很稳定,从低于0.1 GB到1 GB的原始序列数据[13]不等。由于其体积小,设备成本低,MinION测序仪吸引了基因组学界相当大的兴趣,特别是在病原体监测和临床诊断应用,因为这些领域将受益于该测序平台的实时性质。Rhoads和Au[14]对PacBio测序及其应用进行了全面的综述,并对PacBio测序与SGS平台的性能进行了比较。在这篇综述中,我们重点介绍了MinION测序、数据特征、基因组组装算法以及PacBio和ONT平台的区别。

 

 

重新组装基因组TGS数据的技术优势之一是读取长度,这为基因组装配提供了广阔的前景。一般来说,组装器是基于几种不同类型的算法,如贪心、重叠布图一致性(OLC)、德布鲁因图(DBG)字符串图(Henson et al.[34]综述)。早期的装配者通常使用OLC范式来装配Sanger测序读,而现代的装配者使用DBG范式来装配SGS短读。尽管DBG方法速度更快,但是基于olc的算法对于长时间读取具有更高基本错误率的[35]有更好的性能。因此,针对长PacBio和ONT读设计的组装器主要是基于OLC方法的流水线。

为了制造一个全新的olc为基础的组装,通常有三个基本阶段的过程:预组装,共识建设,共识抛光(preassembly, consensus build up, and consensus polishing.)。装配前数据处理的目标是通过修正基误差来生成长而精确的序列。根据读取长度分布选择种子读取(排序读取的子集)。然后将每个读操作映射到种子读操作,从而为映射读操作生成一致序列,从而生成目标基因组的长而准确的片段。这一步的计算非常密集,因为它涉及所有vs-all原始读映射和基本错误校正。下一步是从重叠的read中建立共识。在选择组装算法时有一些可用的选项,但是OLC汇编器为使用多kb长读的从头汇编提供了明显的优势。对于任何长度重复的基因组,一次较长的错误纠正读可以简单地填补唯一序列的缺口,并确保一致构建过程不间断地继续进行。当设计一个从头开始的基因组测序项目时,需要合理的读覆盖(50 - 60)来产生足够的读覆盖,从而唯一地锚定基因组装配中最长的重复区域。对于预组装读取,在重复区域可能存在基本错误,其中原始基本错误与重复相耦合。在预先组装的解读中,诸如indels和替换之类的错误也可以很容易地传递到共识。因此,需要对从TGS数据生成的程序集进行一致的抛光。为了显著减少草案中剩余的错误数量,可以使用PacBio bas中嵌入的丰富的质量分数来实现一种质量意识一致的算法。h5文件或事件的原始离子电流在ONT MinION FAST5文件。Quiver[36]算法处理PacBio bas中可用的四种不同的每基质量值(QV分数)。h5文件,它表示在单次读取中插入、删除、替换合并碱基调用的内在计算的错误概率。对于MinION平台,装配的最后抛光可以使用Loman等人开发的Nanopolish进行,该技术通过根据事件的原始离子电流重新评估和最大化每个基的概率来改进装配的基础质量,FAST5文件中可以访问这些基。

PacBio纠正读取汇编和Canu

PacBio Corrected Reads assembler and Canu

PacBio Corrected Reads(PBcR)组装程序(http://wgsassembler.sourceforge.net/wiki/index.php/PBcR)是第一个使用分层装配方法(正确、重叠、装配)的流水线,这表明在基本错误纠正之后,可以使用有噪声的长读来进行装配。针对PacBio特异性h5文件[41]的输入,建立了PacBio长读的层次化基因组装配过程(HGAP)[40]。然而,当原始测序数据转化成FASTQ / FASTA文件,对齐工具等基本的局部比对连续细化(BLASR) [42], DALIGNER (https://github.com/thegenemyers/ DALIGNER)或Celera Assembler可以用来计算多个比对基础误差校正和重叠检测共识布局紧随其后。易出错长序列读取的快速、敏感映射是关键,对多比对的计算要求很高。在过去几年里,PBcR在组装细菌基因组[43,44]、中型果蝇和拟南芥基因组[45],以及最近的人类基因组[46,47]方面取得了显著的性能改进,这要归功于一种新的、更快的算法,称为MinHash比对过程(MHAP)[45]。MHAP采用概率方法对长读进行基于重叠的汇编(overlap-based assembly of long reads)。为了加速千兆字节大小的基因组的装配,MinHash将长而稀疏的文本表示为种子序列,或者将一串信息表示为一组指纹,这样装配过程就可以使用更少的计算资源,以更紧凑的数据进行。最新的努力已经导致了一种新的组装器Canu (https://github.com/marbl/canu)的开发,它采用了与PBcR相同的策略和方法,但提供更高的速度和更好的可用性。Canu的第一个版本于2015年底发布。

Falcon组装器

由PacBio的Jason Chin开发的Falcon[48]组装器是另一种采用HGAP策略的流水线。它与PBcR具有许多相同的特性,如使用DALIGNER进行基本错误校正的原始读重叠和重叠滤波。主要的区别在于其重叠共识的产生。给定重叠数据,从数据集构造一个string graph来表示具有重叠的读操作的连接,其中路径是读操作之间的连接,边是连接读操作。由于基因组多态性和测序错误,我们进行了图边缘约简来去除复杂性。创建draft contigs的共识步骤是找到每个contig图对应的一条路径,然后生成相应的序列。人们一直在努力使Falcon成为一种能够识别多倍体的组装器,并设计了新的算法来重建完整的单倍型。对于输入边和输出边唯一的简单图,以一种简单的方式生成叠架。在叠架图不是简单路径的情况下,首先生成主叠架图,主叠架图的底重叠最多的端到端路径。此外,在一个多路径图中,如果可能有一条与主路径不同的可选路径,就会构造另一条contig,称为关联的contig。主群和副群(primary and associated contigs)的同源性比较可以揭示基因组多态性。当相关的contig被测序错误诱导时,备用的contig和主的contig会有很高的一致性(大部分时间为>99%)。在存在真正的结构多态性的情况下,主群和相关群被分离,每一个从基因组中代表一个不同的单倍型。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wangchuang2017

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值