近几年兴起的三代测序技术,具有读长长的特点,能够产生10~100kb甚至更长的序列,可有效解决二代测序的组装难题。三代Nanopore测序平台因其具有便携性、测序成本低等特点,已经在几个物种de novo测序中组装出高完整度的基因组,为动植物基因测序带来了很大的转机。
虽然拥有读长长等特点,但三代测序原始数据错误率相对较高(5-15%),利用常用基因组组装软件产生的基因组图谱仍可能含有较多的单碱基错误和小插入删除错误。因此,初步组装的基因组必须经过多次polish来纠正碱基错误。如果采用之前的算法和软件,这一过程需要较多的计算资源,从而耗费大量CPU时间和成本。
为解决三代测序,尤其是Nanopore测序数据处理算法和软件工具不够丰富和成熟的问题,北京希望组胡江团队历时约两年时间, 通过上百个基因组项目调试, 专门开发了NextPolish软件工具包,这是一款针对三代测序(尤其是Nanopore)基因组组装准确度不足问题的解决方案。 11月28日,生物信息学领域著名杂志 Bioinformatics 在线发表上述研究成果,文章题为“NextPolish:a fast and efficient genome polishing tool for long read assembly”。
据悉,软件主要编写人胡江为文章第一作者,希望组集团CSO刘山林博士为通讯作者,孙宗毅及樊俊鹏为共同作者。据介绍,NextPolish工具包采用K-mer得分链和K-mer计数算法,能够显著