HiFi Reads基因组组装:快、准、狠

HiFi Reads基因组组装:快、准、狠

贝瑞科服已关注

2020.06.01 10:17:11字数 1,671阅读 544

最近,关于用HiFi Reads组装的消息不断刷新了我们对基因组组装的认知:高重复高杂合的加州红杉超大基因组组装在两周内完成,而Contig N50也达到了1.92 Mb;基于最新组装算法组装的人基因组同时获得了准确度超99.999%,Contig N50达到77 Mb的结果。HiFi Reads在基因组组装方面为何能做到如此的快、准、狠?下面小贝为您一一揭晓。

 

HiFi Reads:兼具长读长和高准确性

HiFi Reads是PacBio公司通过优化酶读长并平衡插入片段长度与测序准确性开发的高准确性(99.9%)长读长(10-20 Kb)测序模式CCS(Circular Consensus Sequencing)。在这种测序模式下,仍具有与CLR测序模式相当甚至更长的酶读长(超过100 Kb),但插入片段只有10-20 Kb,因此测序时酶会绕着DNA模板(插入片段)进行滚环测序,即插入片段会被多次测序。这样单次测序中造成的随机测序错误,可以通过算法进行自我纠错校正,最终得到高准确度的HiFi Reads。 

图1 CCS测序模式产生高质量HiFi Reads(图片来自PacBio官方资料)

 

HiFi Reads组装:快

PacBio CLR或Nanopore长Reads由于测序准确性较低,在进行基因组组装时一般需要利用高准确性的Illumina短Reads进行纠错。而HiFi Reads本身即是高准确性的长Reads,可直接进行拼接,因此可大大节省运算资源和时间。第一篇利用HiFi进行人基因组组装的报道已经表明,HiFi Reads组装的速度比CLR Reads快10–100倍[1]。另一项同时利用HiFi Reads和CLR Reads对人基因组组装的比较中,HiFi Reads组装仅花费了约2,800个CPU时,而CLR Reads组装花费了超过50,000个CPU时,已报到的利用Nanopore Reads进行的组装更是花费了约151,000个CPU时[2]。前面提到的27 Gb的六倍体加州红杉超大基因组,利用HiFi Reads两周就完成了组装。

图2 HiFi和CLR Reads组装人基因组的比较(图片来自原文[2])

 

HiFi Reads组装:准

1 连续性与CLR和Nanopore相当

虽然HiFi Reads在读长上打了折扣,但在基因组组装的连续性方面仍然毫不逊色于PacBio CLR和Nanopore Reads。上述同时利用HiFi Reads和CLR Reads对人基因组组装的比较中,HiFi Reads和CLR Reads组装的Contigs N50相当(25.52 Mb和29.26 Mb)。一般认为Nanopore ultra-long 在基因组组装的连续性方面更具优势,但同时利用HiFi Reads和Nanopore Reads进行水稻基因组组装的报道中,三个组装软件中两个的组装结果都显示HiFi Reads组装版本的Contigs N50高于Nanopore Reads[3]。

图3 PacBio HiFi和Nanopore组装水稻基因组的比较(图片来自原文[3])

 

2 组装质量显著提升

由于HiFi Reads与Illunima短Reads具有相当的碱基准确性,因此在组装上具有CLR和Nanopore无法比拟的优势。利用HiFi Reads对人基因组进行组装的结果表明,HiFi Reads基因组组装质量比CLR高6倍,比经过Illumina校正的Nanopore高77倍。

图4 PacBio HiFi、PacBio CLR、Nanopore和Nanopore+Illumina基因组组装质量的比较(图片来自原文[1])

值得一提的是,利用HiFi Reads和Nanopore Reads进行水稻基因组组装的报道表明,对于高重复区域,利用高质量的Illumina短Reads对Nanopore长Reads进行纠错效果一般。原因在于Illumina短Reads在重复区域很难准确比对,导致覆盖深度有限,因而无法起到准确纠错的作用。而HiFi Reads兼具长读长和高准确性的双重优势,对重复区域仍然能够获得较高的组装质量。

 

3 对重复区域和着丝粒区域具有较高的分辨率

除了整个基因组的连续性和准确性,HiFi Reads在重复区域和着丝粒区域的组装方面也表现不俗。对人基因组的组装表现上,HiFi Reads组装对散在重复的分辨率为43%,高于PacBio CLR和已有的Nanopore版本。对于数百拷贝的串联重复,HiFi Reads组装比CLR都具有更高的分辨率和准确性。而专门针对HiFi Reads组装优化的HiCanu软件在重复序列和着丝粒组装方面更有良好表现。

图5 HiFi和CLR对串联重复区域组装结果的比较(图片来自原文[2])

 

HiFi Reads组装:狠

1 简单和复杂基因组通吃

根据PacBio官方信息,除了已报道的人、水稻、果蝇和跗库蚊,目前HiFi Reads组装已经在人、大麻、燕麦、四倍体月季和六倍体加州红杉等物种中应用。即便是大麻、燕麦、月季、加州红杉这些复杂基因组,HiFi Reads组装也都有不俗的表现。例如,11 Gb燕麦基因组组装的Contig N50高达20 Mb!而对于高重复高杂合的多倍体裸子植物的超大基因组,HiFi Reads组装的Contig N50也达到了1.92 Mb,远远高于已报道的其他裸子植物基因组。

图6 HiFi Reads组装加州红杉超大基因组(图片来自PacBio官方资料)

 

2 高质量的单倍型基因组组装

当组装多倍体时,组装软件必须要能区分不同的等位基因,并将它们保存为不同的序列。利用最新开发的HiCanu组装软件对人基因组的HiFi Reads进行组装结果包含超过2 Gb的替代Contig,而其它的组装软件只能产生不到400 Mb的替代Contig。这说明HiCanu结合HiFi Reads具有更强的区分单倍型的能力。并且,HiCanu组装的主要Contig和替代Contig都具有较高的BUSCO完整性(分别为> 94%和> 75%),远远高于Nanopore ultra-long Reads组装的BUSCO完整性(分别只有63%和0.3%)。

图7 HiCanu组装人单倍型基因组(图片来自原文[4])

 

参考文献

1. Wenger Aaron M, Peluso Paul, Rowell William J et al. Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome.[J] .Nat. Biotechnol., 2019, 37: 1155-1162.

2. Vollger Mitchell R, Logsdon Glennis A, Audano Peter A et al. Improved assembly and variant detection of a haploid human genome using single-molecule, high-fidelity long reads.[J] .Ann. Hum. Genet., 2020, 84: 125-140.

3. Dandan Lang, Shilai Zhang, Pingping Ren et al. Comparison of the two up-to-date sequencing technologies for genome assembly: HiFi reads of Pacbio Sequel II system and ultralong reads of Oxford Nanopore. [J]. bioRxiv, 2020.

4. Sergey Nurk1, Brian P. Walenz1, Arang Rhie et al. HiCanu: accurate assembly of segmental duplications, satellites, and allelic variants from high-fidelity long reads. [J]. bioRxiv, 2020.

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wangchuang2017

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值