请注意这个Gap:使用太平洋生物科学公司的长读测序技术 升级基因组
利用桑格毛细管电泳和/或更新的短读序列数据和全基因组组装技术,许多基因组已经被测序到高质量的草案状态。
然而,由于输入数据和用于构建草稿程序集的技术的限制,即使是最好的草稿基因组也包含缺口和其他缺陷。
测序偏差、重复的基因组特征、基因组多态性和其他复杂的因素一起使一些区域难以或不可能组装。
传统上,草案基因组被升级到阶段3完成状态使用耗时和昂贵的基于sanger的手工整理过程。为了更方便地装配和自动完成草案基因组,我们在这里提出了一种使用来自太平洋生物科学RS (PacBio)平台的长读来完成的自动化方法。
我们的算法和相关的软件工具PBJelly(可在https://sourceforge.net/projects/pb-jelly/上公开获得)在参考引导的装配过程中使用长序列读取来自动化完成过程。PBJelly还提供升降坐标表,以便将现有的注释轻松地移植到升级后的程序集。
使用PBJelly和long PacBio reads,我们升级了模拟果蝇melanogaster的草案基因组序列、版本2的草案果蝇伪库、assembly athon 2.0虎皮鹦鹉数据集的一个装配,以及一个初步装配了乌黑的mangabey。通过24个PacBio长阅读的地图覆盖,我们解决了99%的空白,并能够关闭69%,提高了12%的D. pseudoobscura的所有空白。通过4个PacBio长读的地图覆盖,我们发现reads解决了budgerigar组装中的63%的缺口,其中32%被关闭,63%得到了改进。通过6.8幅mangabey PacBio long-reads地图覆盖,我们解决了97%的空白,填补了66%的空白,提高了19%。通过对原始D. pseudoobscura草稿组件的间隙进行Sanger测序,验证了间隙闭合的准确性,并表明其依赖于初始参考质量。