PaSS: a sequencing simulator for PacBio sequencing PaSS:用于PacBio测序的测序模拟器

背景:PacBio测序等第三代测序平台近年来发展迅速。PacBio测序产生的读取比第二代测序(或第二代测序,NGS)技术长得多,具有独特的测序错误模式。有效的读取模拟器对于评估和促进PacBio测序数据分析新生物信息学工具的开发至关重要。

结果:我们开发了一种新的PacBio测序模拟器(PaSS)。它可以从当前可用的PacBio测序数据中学习序列模式。除了读取长度和错误率的分布之外,我们还包括上下文特定的排序错误模型。与现有的PacBio测序模拟器如PBSIM、LongISLND、NPBSS等相比,PaSS在很多方面都有更好的表现。装配试验也表明,通过PaSS模拟的reads与实验测序数据最相似。

结论:PaSS是一种有效的PacBio序列模拟方法。它将有助于评估和开发新的第三代测序数据分析工具。

关键词:第三代测序,下一代测序,PacBio测序,测序模拟器,测序误差,序列模式

背景

包括PacBio或SMRT(单分子实时)测序和nanopore测序在内的第三代测序技术正在基因组学研究领域掀起一场革命,因为它们为研究人员提供了前所未有的测序读取长度为[1]的基因组研究。由美国太平洋生物科学公司开发的SMRT测序是应用最广泛的第三代测序技术之一。越来越多的生物信息学工具和算法,如序列比对程序BLASR[3]和GraphMap[4],基因组装配程序canu[5]和miniasm[6],以及结构变异调用者PBHoney[7]和Sniffles[8]等,已经出现在SMRT数据分析中。此外,PacBio测序已迅速发展多个版本。对这些工具进行基准测试和评估是非常重要的,这些工具使用的是针对PacBio技术特定版本的序列模拟器模拟的reads。PacBio数据的模拟可以帮助用户为自己的研究项目[9]选择最合适的分析工具或方法。此外,生成硅数据可以显著降低改进下游分析工具[10]所需的成本和时间。

     PacBio reads的特点与第二代测序reads有很大的不同。它能够产生大约10-15 kb的reads,这比现有的第二代测序方法要长得多。长读对于跨越重复的复杂的区域(如大的结构变化)很有用,因为可以更精确地确定基因组中读的映射位置。因此,长读在分析重复区域和较大的结构变化方面具有优势。相比之下,第二代测序比较困难,可能会导致错误的组装和缺口。然而,在第二代测序技术中,每个碱基的错误率大约为15%,而在不到1%的情况下,错误率主要由indels[11]控制。然而,单分子循环测序或多通道测序可以缓解高错误率。在测序过程中,可以使用圆形模板[12]对目标分子的正链和反链进行多次测序。被称为聚合酶读的输出序列可以分成多个读,称为子读。通过生成这些子序列的一致性,可以提高最终输出序列的读取质量。虽然吞吐量仍然很低,最新的测序器续集可以产生7到10倍的序列比旧的测序器PacBio RSII。它可以产生5-10Gb的基础与约365 k~ 500k读每运行[13]。此外,与NGS方法相比,PacBio测序速度更快,没有GC偏置[14]。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wangchuang2017

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值