Third-generation sequencing and the future of genomics 第三代测序和基因组学的未来

摘要

第三代远程DNA测序和映射技术正在创造高质量基因组测序的复兴。第二代测序只能产生几百对碱基对的短序列,而第三代单分子测序技术可以产生超过10000个碱基对的短序列,或者映射超过100000个碱基对的分子。我们分析了如何利用增加的读长来解决基因组组装、结构变异分析和单倍型定相中的长期问题。

介绍

随着罗氏/454焦磷酸测序在2005年、Illumina/Solexa测序在2007年和其他高通量技术的商业化,第二代测序(或下一代测序)的出现,基因组测序的成本急剧下降1。这使得许多新基因组的测序和广泛的重新测序工作成为可能,以分析基因组的多样性。尽管第二代测序使单核苷酸和其他小变异的人群规模分析成为可能,但更大的结构变异的分析被证明是困难的。此外,使用第二代技术从头组装的新基因组的质量通常低于使用更老、更昂贵的方法测序的基因组。特别是,由短片段组成的从头开始的基因组装配可能缺乏基因组的全部部分,可能是片段化的并丢失重要的基因,并且缺乏足够的健壮性来研究整个染色体结构2,6。在某些情况下,组装的序列大大小于平均基因大小,使得该序列不如以前的参考基因组有用7。重排序项目在分析结构变异方面也受到严重限制,每一个哺乳动物大小的基因组中缺失数万个或更多的结构变异。

新的单分子测序技术可以产生超过10,000bp的平均读长,一些读长可以达到100,000bp或更多(表1),这使得对基因组结构的分析有了很大的改进。更重要的是,更长的读取长度跨越了更多的重复元素,从而产生了更连续的基因组重建。在结构变化分析方面,长读支持改进的“分读”分析,以便插入、删除、易位和其他结构变化更容易被识别。此外,单分子测序技术通常产生更均匀的基因组覆盖,因为它们对GC含量的敏感性不如第二代技术,后者往往减少或完全不覆盖序列组成不平衡的区域10。作为对改进的测序技术的补充,有几种远程绘图技术可以使用荧光探针和其他标记将结构50kbp映射到250kbp或更长的分子。利用第三代测序和定位技术,可以形成超级叠架(“支架”)可以跨越几乎整个染色体臂,从而大大改善了结构分析11-13。

第三代技术已被用于生产数百个微生物基因组的高度精确的从头组装,并对许多植物和动物基因组进行高度连续的重建,从而对进化和序列多样性有了新的认识。它们还被应用于重新排序分析,以创建跨越人类染色体大片区域的结构变异和阶段性变异的详细地图。值得注意的是,这些新技术已经被用来填补人类参考基因组中的许多空白,而这些空白在过去十多年的时间里一直受到严格审查。改良的读长在临床上的一个重要应用是对基因组的医学相关区域进行测序,如主要组织相容性复合体21的人类白细胞抗原(HLA)基因。这些技术已被证明有助于解决宏基因组学群落的组成问题,因为较长的读长和较长的跨度允许单个物种在过于复杂的混合物中进行组装,而单靠短读是无法解决这一问题的。除了DNA测序外,第三代技术还被广泛用于研究转录组,识别出成千上万种新的亚型和基因融合,而这些是第二代短读测序所没有发现的。最后,一些技术还允许从单个分子直接测量表观遗传修饰,允许发现许多新的甲基转移酶,以及更好地研究甲基化在病原体中的作用。

在这里,我们分析了第三代技术的能力,以显示他们如何改善基因组测序的3c:基因组的连续性,完整性和正确性。我们讨论了这些技术的关键特性和有效利用它们所需要的分析算法。然后,我们对目前可用的第三代基因组组合进行荟萃分析,对参考人类基因组的发展进行回顾性分析,并对生命树中的几十个物种进行模拟。根据这些数据,我们开发了一种新的基因组装配预测模型,该模型以在线web服务的形式呈现(http://qb.cshl.edu/asm model/predict.html),可以使用不同的技术(在线方法)准确地估计基因组装配项目的性能。

第三代测序

目前市面上有三种第三代DNA测序技术,分别是太平洋生物科学(PacBio)单分子实时(SMRT)测序、Illumina truu -seq合成长读技术和牛津纳米孔技术(Oxford Nanopore technologies)测序平台。使用单分子测序或克隆扩增和长分子测序,这三种技术都可以产生长读长,平均在5000 bp到15000 bp之间,有些读长超过100000 bp。

其中最成熟的是PacBio SMRT技术,该技术于20109年投入商业应用。SMRT技术通过人工合成来对DNA进行测序,并在荧光标记的核苷酸被整合到单个模板分子时,利用光学技术对其进行监控。当前的仪器PacBio RS II的读取长度可达~100,000 bp,最大的吞吐量(~8GB /天)是目前可用的长读技术(表1)。Reads的原始错误率为10%到15%,但是已经开发了几种算法技术,可以在足够的覆盖范围内将每个核苷酸的准确性提高到99.99%以上(在线方法表1)。而低覆盖率可以有效地与混合纠错算法一起使用,该算法利用额外的高覆盖率短读排序来纠错长读16。PacBio测序的主要限制是相对于第二代方法的成本,这限制了它在分析大量基因组方面的应用。然而,到目前为止,已经有数百个项目成功地使用了PacBio测序,包括近乎完美的装配或非常高质量的微生物基因组,真菌、植物和动物物种,以及整个人类基因组的高质量从头组装

2012年推出的第二代技术是分子协议,现在市场上称为Illumina TruSeq Synthetic Long Reads19。利用这种方法,在短读测序前对~10kbp的DNA分子进行无性扩增和条形码编码,使短读序列可以合成长读序列。合成长读数非常精确(误差约0.1%)(表1),可以用于相位分析和装配而不需要纠错。然而,由于TruSeq依赖于长程放大,并且读程是综合生成的,所以可用的读程长度比其他方法短,并且在Illumina化学有偏倚的任何区域,如GC含量高的区域或串联重复的区域,都容易终止和产生偏倚。最后,为de novo基因组装配获得足够的覆盖可能是昂贵的,通常甚至比PacBio测序更昂贵,因为要装配30倍的合成长读,可能需要900x到1500x或更多的短读覆盖。尽管如此,已经有几项研究使用这种技术来组装和调整复杂的基因组,包括调整人类染色体的大片区域。

2014年,牛津纳米孔技术公司(Oxford Nanopore Technologies)发布了最新的第三代技术。他们目前使用的仪器,牛津纳米孔小分队是一种手持设备,通过电子测量DNA分子通过纳米孔时电流的微小中断来对DNA进行排序。目前可用的仪器的读取长度与PacBio生产的类似(表1),尽管到目前为止,该仪器已经遭受了较差的准确性和较低的吞吐量,这限制了它的范围小基因组测序,包括大肠杆菌(4.5Mbp)或酵母(12Mbp),或扩增子。使用与PacBio读取类似的错误纠正算法,使用MinION测序的基因组的每个核苷酸的准确性被测量为>99.95% 15。有趣的是,该仪器体积小,成本低,因此可以用于偏远地区的研究,包括西非地区的埃博拉疫情研究

......

结论

第三代DNA测序和绘图技术正开始产生高质量的基因组序列。
这很容易通过使用这些技术报告的contig和支架N50大小来测量,它们的相邻性是相应的短读程序集的数百到数千倍。
这些组件,megabase叠连群multi-megabase支架,是真正的参考质量,使提高基因组的几乎每一个方面:分析更加完整和准确的表示基因的临床相关的单核苷酸多态性,监管区域和其他重要基因元素,以及更好地解决整个染色体的组织。
        可用的最高质量的基因组是由最长的可能读序列最长的可能的映射信息组合而成的。有趣的是,读取的每个核苷酸错误率对每个核苷酸组装序列的准确性几乎没有影响,因为经过调优的算法可以有效地将即使是30%的每个核苷酸错误率降低到1%以下,并且有足够的覆盖率。我们对可用装配体的元分析以及我们提供的建模表明,使用当前可用的长读技术,可以为大小为100Mbp的基因组装配几乎完整的染色体。对于较大的基因组,通过严格的短读测序可以获得较大的收益,其结果接近或超过更古老、更昂贵的BAC-by-BAC或基于化石的组合。如果项目需要更高质量的程序集,该模型还可以预测这些数据何时可用。特别是对于人类基因组来说,完整染色体的平均读取长度需要超过150kbp。如果历史趋势继续下去,这可能在3至4年内实现。当这一里程碑达到时,很可能许多项目将从完全组装好的基因组开始,而不是从变体列表开始,这为研究大种群中的结构变异开辟了新的机会。

   我们的分析包括将已发表的参考基因组的模拟解读作为其效用的上限:我们分析的基因组存在缺口和错误,掩盖了它们的真实复杂性,而我们模拟的解读既不包含错误,也不存在杂合性。在实践中,研究人员可能需要对基因组进行比预期更多的取样,以解释存在的任何残留错误或偏差。事实上,虽然我们的分析表明,20 x的报道一个基因组应该足以组装基因组,我们建议研究人员样本> 75 x当使用新的长读测序技术使纠错措施最有效,确保高覆盖率最长的读取。理想情况下,如果预算和样本材料允许,我们建议使用单倍体或近亲繁殖的样本,将20倍的错误纠正读长仅超过20kbp的范围进行装配。我们还提醒研究人员仔细监测该领域的发展,因为所有这些技术都在迅速发展,新技术已经在开发中。PacBio和Oxford Nanopore公司都宣布今年将推出产量更高、成本更低的仪器,新的10X和燕尾技术正在迅速改进。

 

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wangchuang2017

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值