不用在读长和准确性之间做选择题，PacBio发表新方法-CSDN博客

本文链接：https://blog.csdn.net/u010608296/article/details/113405762

研究人员通过优化PacBio的单分子实时测序技术（SMRT）中的环状一致性测序（CCS），实现了长且高准确度的基因组测序。通过预延伸和选择性上样DNA策略，新方法能生成超过10kb的准确读数，提高变异检测和组装效率，有望改变基因组学领域。

摘要由CSDN通过智能技术生成

【字体：大中小】 时间：2019年08月19日 来源：生物通

编辑推荐：

　　研究人员的梦想是拥有既长又准确的测序读数。如今，PacBio研究团队对现有的单分子实时测序（SMRT）技术进行了调整，让人们离这个目标又近了一步。

从一开始，研究人员似乎就面临着艰难的选择。一边是Illumina产生的短序列，高度准确但读长很短，另一边则是Pacific Biosciences和Oxford Nanopore产生的长序列，但准确性却无法让人满意。研究人员的梦想是拥有既长又准确的测序读数。

如今，PacBio研究团队对现有的单分子实时测序（SMRT）技术进行了调整，让人们离这个目标又近了一步。这篇题为“Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome”的论文于本周发表在《Nature Biotechnology》杂志上。

“文章首次介绍了一种方法，能够产生既长又准确的读长，”PacBio生物信息学首席科学家Aaron Wenger指出，他也是这篇论文的第一作者。这种新方法是基于PacBio的环状一致性测序（CCS）模式。

PacBio Sequel系统试剂和软件双双升级，欢迎索取详细资料领取

PacBio的CCS系统是在线性DNA分子的两端连接发夹结构的接头，以形成SMRTbell模板。聚合酶从接头处出发，不断添加碱基，产生序列读数。它通过这种方式在两个接头之间来回走动，产生HiFi（高保真）读数。通常，CCS不被认为是长读长技术。Wenger指出，这种高准确性的代价就是读长只有1-2 kb。不过，他们如今利用CCS方法生成了长度超过10 kb的准确读数。

他们是如何做到的呢？Wenger表示，文中提到的一个关键创新点是“预延伸”。由于PacBio测序依赖于不断拍照的相机（就像电影一样），聚合酶之间都是彼此独立的。它们不断添加核苷酸，直至失去活性。

聚合酶脱落有各种原因，通常是因为DNA受损。为此，PacBio将重点放在DNA质量上。他们设计出一种方法，最大限度减少受损DNA的上样机会。Wenger表示，他们在上样DNA之前就开始测序反应，延伸几小时之后，如果聚合酶仍然存在，则可断定DNA没有受损。选择性地上样DNA是利用CCS方法产生长读数的关键。

此外，研究人员还利用SageELF仪器来确保所选DNA分子的大小相同。因为他们一旦知道分子的大小，就清楚预延伸的最佳持续时间。这种新颖的调整也是关键点，因为它能够让聚合酶在测序仪内部持续工作更长时间。

PacBio读数通常有着相当高的错误率（大约在15%，而Illumina在0.1%），但这些错误往往是随机的，因此如果相同的区域被测序多次，则会产生一致性（consensus）序列。比如说错误率为1%，测序深度为100X，那么99条读数可能都显示“A”，而有一条读数显示“G”。这时你就可以确定碱基是“A”而忽略“G”。

在这篇论文中，PacBio研究人员表示他们可以通过多次读取相同分子（平均约10次）来实现超高质量的PacBio测序。这意味着他们最终得到的CCS读数的错误率与Illumina读数大致相同，但长度却比Illumina读数要长得多。

通过这种方式，他们产生了高度准确（99.8%）的HiFi读数，平均长度在13.5 kb。他们用新方法对研究透彻的HG002/ NA24385人类基因组进行测序，发现单核苷酸变异（SNV）的检出率为99.91%，插入缺失（< 50 bp）为95.98%，而结构变异为95.99%。

许多研究人员对新方法表示期待，认为这是迈出了一大步。Inscripta公司的Deanna Church博士则提出了polish的问题，她想了解这种新方法是否仍然需要。polish是指将PacBio长读数与Illumina短读数结合起来。通常，将短的Illumina序列覆盖在长的PacBio序列上，对其进行polish，或找出错误在哪里。

Wenger表示，这种方法不需要polish。“这些读数的原始准确率在99.8%左右，这与短读数的准确性相似，”他说。不过，他也指出，尽管错误率相似，但错误类型不同。插入缺失可能是PacBio测序容易栽跟头的地方，这是由测序性质决定的。

既然这么优秀，为什么不是每个人都切换到这种技术？Ginkgo Bioworks的首席科学家Keith Robison认为，主要障碍在于成本。“每个PacBio流动槽只能提供这么多的读数，因此你只能选择大量质量较高的读数，或者选择少量质量超高的读数，”他指出问题在于实验室愿意支付多少费用，以较少的通量换取较多的变异信息。

未来，除了人类基因组学方面的应用，这种方法也有望应用在宏基因组学以及动植物基因组的组装上。（生物通薄荷）

原文检索

Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome

Nature Biotechnology (2019)