Applications for PacBio circular consensus sequencing

PacBio 循环共有测序的应用

我是 Pacific Biosciences PacBio RS 测序仪的粉丝,本博客的一些读者可能已经知道。 我们在工作中使用该仪器的数据,我所属的挪威测序中心 向其用户提供该技术 

PacBio 最近 增加了他们的阅读长度 。 使用这种所谓的 C2XL 化学,平均原始长度现在约为 4.3-4.5 kbp,最大读取长度可以超过 20kbp。 这些超长读取非常适合 从头 基因组测序应用,这是我们自己正在尝试的。 然而,在关于这些更长读取的新闻中有点隐藏的是 PacBio 所谓的循环共识测序或 CCS 的后果。

什么是 CCS?
为了理解 CCS,需要对 PacBio 测序有所了解。 熟悉这一点的读者可以跳到下一节。

PacBio 测序的模板是所谓的 SMRTBell。 这些是通过将发夹接头连接到双链 DNA 分子的两端而产生的。 看图
发夹接头有一个用于测序的启动位点,用于测序的聚合酶具有链置换能力(它基本上不关心它是否必须通过双链区域,它只是“启动”相反的链)。 这样做的效果是序列模板 (SMRTBell) 的作用就像一个单链闭环。 酶在引物位置开始测序,并对模板进行测序,直到它掉下来,或者作为荧光激发的副作用被“杀死”。 如果酶有足够长的寿命和足够短的插入物,酶实际上会绕过 SMRTBell 另一端的发夹。 对于最短的刀片,它可能会绕圈多次。

用于 PacBio 测序的 SMRTBell 模板的示意图。 来自 http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2926623/ 

这种多遍测序允许调用插入序列的共识,克服了该技术的高单遍错误率(由 PacBio 引用 为~11% 的中值错误率 )。 为了在 CCS 模式下成功测序,插入片段必须短且聚合寿命长。 软件至少需要三遍才能考虑调用共识,最好五遍或更多才能达到 99% 的准确率(Q20)或更好。 一个重要方面是 PacBio 测序的原始读取长度分布(见下图)。 三遍或更多遍的要求限制了刀片尺寸。 例如,需要 3 kbp 的原始读取来获得 1 kbp 插入的共识。 因此,总会有一个——显着的! – 不会产生共识读取的原始读取的一小部分,因为它们太短了。 因此,每个 SMRTCell(“芯片”)的有用读取数低于对长读取(单程)测序有用的原始读取数。

 

典型的 PacBio C2Xl 原始读取长度分布。 来自 http://pacificbiosciences.com/brochure(2013 年 2 月)

CCS 和新的超长原始读取
从上面可以看出,原始读取长度的增加允许 CCS 读取的插入文库更长,或者更短的插入 CCS 文库的吞吐量更高。 PacBio 过去建议 CCS 文库使用 500bp 到 1kbp 的范围。 随着 C2XL 读取长度的增加,这将翻倍至 1-2 kbp。 每个 SMRTCell 的吞吐量约为 40 000 次读取。 本文的其余部分描述了这些超长共识读取可能有用的三个可能领域。

免责声明
首先,我可能是 PacBio 的粉丝,该公司正在帮助我们完成基因组项目,但我没有从他们那里获得任何经济或其他个人利益。 我在这里写的是我自己的看法。 其次,以下建议未经我或我的同事测试——尽管其他人可能正在沿着这些思路工作。 因此,需要确定建议的 CCS 如何使用我描述的实际工作。

1) 用于测序全长 16S rRNA 的 CCS
在下一代测序之前,人们习惯于扩增样本的 16S 区域并制作细菌克隆文库,使用 Sanger 测序对一组克隆进行测序。 NGS 允许每个样本进行更多读取,但将测序部分的长度限制在最多几百个碱基。 因此,NGS 产生了更深的测序数据集,但区分能力较低(系统发育/分类信号较少)。
PacBio 现在可以实现长 CCS 读取,这意味着人们可以考虑回到全长 16S 测序。 吞吐量(每个 SMRTCell 40 000 条读取)将远高于使用 Sanger 测序所能达到的水平,而且质量可能甚至优于 Sanger。 但是,每次读取的价格将明显高于使用短读取技术。 我认为对于某些多样性研究,使用带有全长 16S 扩增子的 PacBio CCS 将非常有益。

2) 用于鸟枪法宏基因组学的 CCS
同样,对全样本鸟枪法宏基因组学(而不是基于 PCR 的多样性研究)感兴趣的人可以考虑使用 1-2 kbp CCS 读数。 例如,长读取可以为基因挖掘提供更多有用的信息。 有人可能会建议使用 Roche/454 GS FLX+,它现在似乎正在工作——至少在我们的实验室中是这样——将在该长度附近产生更多的读取(1 到 120 万)(我们已经看到 1kb 模式读取长度与GS FLX+!),使这项技术更具成本效益。 使用挪威测序中心的价格进行的一些粗略计算表明,这种比较实际上有利于 PacBio。 鉴于一个文库制备和 100 万条所需的读取,454 目前的价格被 PacBio 高出,而后者有可能提供更好的质量(无均聚物错误)和更长的读取。 然而,首先,生成 100 万个 CCS 读数(25 个 SMRTCells)比完整的 454 次运行(大约一天)需要更多的时间(几天,不包括文库准备)[请注意,实验室团队不希望对 PacBio 进行乳液 PCR CCS!]。 其次,其他中心的定价情况可能不同(我认为不同中心的定价结构确实不同)。

3)CCS代替Sanger毛细管板测序
桑格测序 远未消亡 。 它的主要吸引力在于它允许非常小的样本量(可以将单个样本提交给设施)和高质量的长读取。 Sanger 和 NGS 之间的一个关键区别在于,每个读数都可以追溯到板上的孔。 我认为,如果可以为多路 PacBio CCS 测序设计一个合适且具有成本效益的条形码方案,PacBio CCS 可能会取代 Sanger 板测序。 为了降低成本,需要大规模复用,可能需要数十个 96 孔板,其中的碎片需要追踪到其原始板和孔。 但是具有良好自动化经验的实验室可能会成功。 同时,该方案需要源源不断的桑格样本。 它不适用于测序少于每周十几个盘子的设施。 商业供应商实际上可能已经考虑进行此转换。 与 Sanger 相比,其好处可能是更长的读取时间,具有更高的每个碱基质量。

[技术说明:每个 SMRTCell 40 000 次读取的吞吐量可能允许多次添加相同的模板,从而提高最终共识的准确性。 原始读数的一小部分太短而无法达成共识(见上文)实际上可能有助于质量以及它们是条形码]
总而言之:PacBio CCS 可能是短读长测序甚至 Sanger 毛细管测序的替代方案。 但是,信息内容与每次阅读的价格之间存在权衡。

有关描述 CCS 的技术性但可读性很强的论文(来自 PacBio 研究人员自己),请参阅 这篇论文 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wangchuang2017

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值