Badread: simulation of error-prone long reads Badread:模拟容易出错的长读断

背景
DNA测序平台 旨在测量DNA样本中的核苷酸(A、C、G和T)序列
Illumina公司生产的测序仪在过去十年的大部分时间里一直是主导技术,但他们的平台生成的序列片段(reads)相对较小(长度约为100 - 300个核苷酸)。
相比之下,Oxford Nanopore Technologies (ONT)和太平洋生物科学公司(PacBio)生产的长读序列测序仪可以生成数万个或更多核苷酸的序列片段(爱森斯坦,2017)。
这些平台上的长读本对于基因组组装和其他生物信息分析非常有益(科伦,瓦伦茨,柏林,米勒,&Phillippy, 2017;Phillippy, 2017)。
ONT和PacBio测序仪之所以能实现长读长度,是因为它们能检测DNA单个分子中的核苷酸,也就是单分子测序(Heather &链,2016)。
然而,在单分子尺度上测量的随机性意味着ONT和PacBio读断是有噪声的,它们包含大量的误差。
由于来自ONT和PacBio平台的测序reads与Illumina reads在性质上不同(长且有噪声vs短且准确),它们通常需要新颖的分析方法。
在过去的几年里,在这一领域已经有了很多研究,其中一个评估新方法的有用技术是读取模拟:从参考核苷酸序列中生成假测序读取(Huang, Li, Myers, &后,2012)。
与使用真实的测序数据相比,这种方法有一些关键的优势:它更快,更经济,允许更多的测试。
此外,当使用模拟读取时,参考核苷酸序列提供了可能无法用其他方法获得的可信的基础真相。

 

总结
在这里我们介绍Badread,一个在硅模拟长读取的软件工具。
它的主要目标是生成模拟的读集,用于评估将长时间读作为输入的工具或方法。
Badread与现有工具(如PBSIM (Ono, Asai, & Hamada, 2013), LongISLND (Mu等人,2016)和NanoSim (Yang, Chu, Warren, & Birol, 2017))在两个关键方面有所不同。
首先,它可以模拟其他工具无法模拟的读取错误类型。
而其他长读仿真工具关注造型读长度和测序错误,Badread另外可以包括嵌合体(当一个读取由两个或多个不连续的序列),适配器(额外的序列从文库准备的开始或结束阅读),故障(局部地区低精度)和垃圾读断(低重复序列)。
Badread与现有工具的第二个不同之处在于,它将控制置于现实主义之上。
以read length为例,其他长读模拟工具可能会从一个真实的读集中采样读长度,这样它们的模拟读就会遵循一个真实的分布。
而Badread使用gamma分布作为读取长度,用户指定平均值和标准偏差——不太现实,但高度可调。
因此,用户可以生成许多定量变化的读集,例如平均长度为1000、2000、3000等。
读取集的其他特性(读断精度、嵌合率、故障率等)也可以在Badread中进行类似的调整,允许用户系统地评估它们如何影响工具或方法的性能。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wangchuang2017

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值