昆仑通态组态软件最新版本_快讯 | 希望组自主三代组装软件NextDenovo最新版本全球学术开源!...

00a30fb4720059b2d57100c81ef72cee.png

图1. NextDenovo V2.0-beta.1上线Github

测序中国2019年10月18日消息,希望组面向全球释放三代测序数据高效纠错、组装软件NextDenovo最新版本V2.0-beta.1  (https://github.com/Nextomics/NextDenovo),并免费开放用于学术和其他非商业用途。 据悉,本次希望组发布的最新版本NextDenovo是专为三代测序数据开发的纠错、组装软件,不但解决了现有三代测序数据组装工具资源占用大、运行时间长、组装质量不稳定的瓶颈问题,还实现了单Contig一条染色体和超大型基因组组装的突破,为利用三代数据组装基因组扫清了组装算法的障碍。 三代测序数据组装已经成为基因组De novo的主流方案,其中Nanopore的读长可达数百kb甚至超过2Mb,在解决染色体着丝粒/端粒区域、性染色体等基因组复杂区域以及复杂基因组组装问题方面,具有更大的优势[1]。前不久,加州大学圣克鲁斯基因研究所等单位的研究人员利用Nanopore的ultra-long reads成功拼接出了首个人类X染色体基因组完成图序列[2]。 但目前的组装算法仍存在较多的瓶颈,使三代测序的优势不能完全发挥。现有三代测序数据组装软件如:Falcon[3]、Canu[4]、Miniasm[5]、Wtdbg[6]等存在以下几类问题:

1. 部分软件不具备纠错功能;

2. 纠错过程耗费大量时间和计算资源;

3. 组装出的基因组准确度不够;

4. 组装出的基因组大小与预估有偏差。

胡江

针对以上问题希望组胡江团队研发出专门用于三代测序数据纠错、组装的软件——NextDenovo。 其包含NextCorrect和NextGraph两个模块,依次进行测序数据的高效纠错、组装,在极大减少计算资源和运行时间的情况下,仍然能够组装出高质量基因组。基于NextDenovo,希望组已经实现了小基因组物种近完成图和>10Gb基因组物种的组装工作。

高效纠错

NextDenovo原始数据纠错模块可对PacBio和Nanopore的三代测序原始数据进行纠错。表1为NextDenovo与现有主流三代测序数据校正工具(Canu、Falcon和Racon[7]),对不同三代测序平台(PacBio和Nanopore)数据的纠错性能比较。 NextDenovo能够在极大减少运行时间的情况下,达到甚至高于与其他软件的纠错精度。

表1. 三代测序原始数据纠错软件性能评估

fd19b9780c4efb15b093ffe68e7bfb33.png

注:测试数据为人20号染色体PacBio和Nanopore数据各100×,运行环境CentOS Linux release 7.4.1708 (Core),128G内存,32线程(Intel(R) Xeon(R) Gold 6151 CPU @3.00GHz),参数默认。

高效组装

NextDenovo组装模块是基于String graph算法,利用纠错后的三代测序数据进行基因组高效组装。之前的评测结果https://mp.weixin.qq.com/s/8P9KeTpGc5-hIpVy4T4XxQ表明利用相同的Nanopore数据,NextDenovo在组装速度、结果连续性等指标均明显优于Canu(图2)。 7ba061ececa8c039cb54455a13b8a5d7.png

图2. NextDenovo与Canu用相同Nanopore数据组装结果共线性比较

高准确度

Nanopore数据用NextDenovo组装的结果再结合NextPolish直接进行2轮或多轮二代数据polish后,平均碱基准确度能达到99.99%以上(关于NextPolish的详细评测结果见https://github.com/Nextomics/NextPolish/blob/master/doc/TEST1.pdf)。

 NextDenovo组装案例 

在实际项目应用中, NextDenovo的表现非常抢眼, 某禾本科植物Plant1基因组组装Contig N50高达66.3Mb,某同源多倍体植物Plant2的Contig N50也达到了59.7Mb (表2)。 与参考基因组比对的共线性图几乎呈一条对角线(图3)。值得一提的是这两个物种基因组都含有大量的重复序列,而NextDenovo的组装版本邻接性要远高于其他版本。

表2. NextDenovo的组装案例

5ac108a168e1d8506d4203203cde57c3.png c8eaadcf94d4f5c45b15462926830043.png

图3. NextDenovo组装基因组共线性

单Contig一条染色体

利用NextDenovo软件对水稻93-11(Oryza sativa L. 2n=24)的273X深度ONT测序数据进行组装。最终获得的水稻93-11基因组仅包含18条 Contigs,Contig N50 高达29.43Mb。水稻93-11基因组的12对染色体中,至少有一半的单条染色体由单个Contig装出。BUSCO评估显示,在该组装中可以找到约98.1%的完整基因元件,反映组装结果真实可靠。 进行基因组单碱基错误率的统计,该组装基因组的单碱基准确率在99.99%以上。 与其他组装策略相比,利用Next系列软件组装的水稻93-11基因组质量明显优于其他组装结果[8]。 ad752a7d2705db0c3b72703f9d5d64af.png

图4. 水稻93-11基因组不同组装结果比较

超大型基因组

超大型基因组大量高重复区域和动辄Tb级别的数据量对组装算法是一个巨大挑战。NextDenovo能够很好的处理超大型基因组组装问题,对一个预估基因组11.02Gb的超大型基因组进行组装,NextDenovo组装版本的基因组与预估大小非常接近约为10.42Gb,Contig N50达5.02Mb,明显优于常规基因组组装工具(表3)。

表3. NextDenovo与其他软件超大基因组组装结果比较

a65113fdcb575936f4a16e3a17264038.png 自成立以来,希望组致力于三代测序技术应用与服务。2017年,希望组搭建Oxford Nanopore测序平台以来陆续开展ONT Ultra-long测序、低起始量建库测序等前沿技术研发工作,并率先于2017年底推出ONT Ultra-long测序服务,目前已经完成近百个物种的ONT Ultra-long测序、组装工作。该公司自主研发的基于ONT数据的系列组装、纠错算法软件NextDenovo、NextPolish,在运行效率、组装质量、适用范围方面均优于现有组装工具,实现了单Contig一条染色体和超大型基因组组装的突破。在分析服务方面,希望组与华为云合作,将纳米孔测序数据分析流程整合到云计算平台上,实现急速基因组组装与注释,为全球客户提供快速、高效的纳米孔长读长测序计算和存储服务。在三代测序服务领域,希望组技术顶尖,算法领先,服务全面,目前已完成了数百个三代测序科研项目,在Nature geneticsNature CommunicationsMolecular CellDevelopmental Cell等国际权威杂志合作发表多篇研究论文,累积影响因子超过380。

参考资料:

[1]高胜寒, 禹海英, 吴双阳, 等. 复杂基因组测序技术研究进展[J]. 遗传, 2018, 40(11): 944-963.

[2]Miga K H, Koren S, Rhie A, etal. Telomere-to-telomere assembly of a complete human X chromosome[J]. BioRxiv,2019: 735928.

[3]Chin C S, Peluso P, Sedlazeck F J, et al. Phased diploid genome assembly with single-molecule real-time sequencing[J]. Nature methods, 2016, 13(12): 1050.

[4]Koren S, Walenz B P, Berlin K, et al. Canu: scalable and accurate long-read assembly via adaptive k-mer weighting and repeat separation[J]. Genome research, 2017, 27(5): 722-736.

[5]Li H. Minimap and miniasm: fast mapping and de novo assembly for noisy long sequences[J]. Bioinformatics, 2016, 32(14): 2103-2110.

[6]Ruan J, Li H. Fast and accurate long-read assembly with wtdbg2[J]. BioRxiv, 2019: 530972.

[7]Sanders A D, Falconer E, Hills M, et al. Single-cell template strand sequencing by Strand-seq enables the characterization of individual homologs[J]. Nature protocols, 2017, 12(6): 1151.

[8]Zhang J, Chen L L, Xing F, et al. Extensive sequence divergence between the reference genomes of two elite indica rice varieties Zhenshan 97 and Minghui 63[J]. Proceedings of the National Academy of Sciences, 2016, 113(35): E5163-E5171.

· END ·

热文推荐

  • 华大智造“超级生命计算机”DNBSEQ-T7正式交付

  • 新羿数字PCR系统的生物芯片分析仪获医疗器械批文

  • 钟声团队PNAS发文:用“一滴血”检测胞外RNA的新型液体活检方法

  • 新型ctDNA液体活检方法用于癌症预后监测,性能大幅提升!

7d50fb9b48249f03992c70a6a2550645.gif

喜欢点“在看”哟!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值