如何理解PacBio的准确度？

最新推荐文章于 2023-05-20 11:48:26 发布

wangchuang2017

最新推荐文章于 2023-05-20 11:48:26 发布

阅读量1.1k

点赞数

分类专栏： PacBio long read

本文链接：https://blog.csdn.net/u010608296/article/details/113405879

版权

生物信息学同时被 3 个专栏收录

642 篇文章

订阅专栏

第三代测序技术

257 篇文章

订阅专栏

PacBio long read

13 篇文章

订阅专栏

PacBio的SMRT测序技术在单分子实时测序中实现了99.999%以上的高度准确性，其秘诀在于一致性准确性、消除序列偏好性和测序reads的映射性能。通过生成更长的测序reads，SMRT技术能减少随机错误，并通过专门的工具如BLASR和Quiver进行mapping和共识分析，即便单次读取错误率较高，也能通过提高覆盖率来提高准确度。这种技术尤其适用于SNP验证和基因组组装，提供高质量的序列信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Understanding Accuracy in SMRT Sequencing

【字体：大中小】 时间：2015年04月29日 来源：基因有限公司

编辑推荐：

　　第三代测序中的PacBio单分子实时（Single Molecule Real-Time, SMRT）DNA测序可以实现超过99.999%（QV50）的高度精确测序，且不受DNA序列中GC和AT含量的影响，平均读长可达10-15kb（*长>40kb），这是如何实现的呢？这是因为SMRT技术在与DNA测序精确度相关的三个方面均有独到之处……

介绍

1. Consensus accuracy（一致性准确性）
2. Sequence context bias（测序偏好性）
3. Mappability of sequence reads（测序reads的map表现）

本文将从专业客观的角度从这三方面详细阐述SMRT测序技术的表现，图文并茂，数据详实，请各位看官留步，细细品味。

*Let Professionals Serve Professionals基因有限公司 www.genecompany.com*

1. Consensus accuracy（一致性准确性）

一个典型的测序过程通常包括三个基本步骤：（i）生成测序reads，（ii）将生成的reads mapping到已知的参考序列上，（iii）为了得到*终的序列而生成consensus。如果DNA样本是未知起源的，那么第（ii）步就会被de novo基因组组装所代替，以便生成一个新的参考基因组。*后一步是将原始测序reads mapping到assembly结果。

为了使大家更好的理解SMRT测序技术是怎样达到准确度>99.999%的，图1我们先来review一下在second-generation sequencing系统中，测序结果是怎样得到的。

在这个例子中，一条120bp的read被mapping到参考基因组上，红色箭头表示与参考基因组不一致的碱基。但是我们不能单凭这一条read的mapping结果就给出生物学结论，因为我们不知道这种不一致究竟来自于真正的生物学变异还是仅仅是由于测序错误导致的。同样，单凭一条read也无法call出heterozygous SNPs，因为在这种变异里，我们至少需要来自父方和母方染色体的各一条read。因此，要想获得真实准确的生物学发现，必须通过将多条reads进行averaging，然后与参考基因组的相同区域进行map，换句话说，需要进行building consensus。

在这个例子中，来自于10条reads的average序列信息（相当于10?#65289;被用于判断与参考位置究竟是match，还是homozygous SNPs，亦或是heterozygous SNPs。那么，同样的策略其实也被用于SMRT测序技术中（见图2）。

SMRT测序可以产生更长的reads（平均读长可达10-15kb，*长>40kb），但是为了与图1一致，便于理解，我们在图2还是只看120bp的长度。虽然在SMRT技术中，single-pass reads更容易出错（平均错误率11%），这些错误主要由于deletions（水平红线）和insertions（垂直红线）引起。考虑到SMRT-sequencing reads的这些特征，Pacific Biosciences公司开发了名为BLASR1的mapping工具，专门为mapping SMRT-sequencing reads进行了优化。尽管单次读取（single-pass）的错误率稍高，但是使用BLASR还是可以准确的将SMRT-sequencing reads mapping到参考序列的相应位置。因此，正如图1中二代测序的例子一样，无论哪种采用技术，没有人会关注一个碱基只被测一次的结果，*终结果都是经过consensus分析之后得到的，比如，当做到10?#30340;时候，每个位置的序列信息就是由10次读取之后产生的平均结果而定（如图中垂直的框）。所以，对于PacBio三代测序来说，针对每一个碱基，10次读取中有9次都是正确的，足够让我们判断出该位置的正确信息。

根据SMRT-sequencing reads的这一特点，PacBio公司也开发了一个名为Quiver的consensus工具，可以生成高质量的consensus序列（www.pacbiodevnet.com/Quiver）。

然而，如果测序方法本身存在系统错误，无论consensus之后的序列是不是正确，测序结果都将会受到影响。也就是说，如果某个碱基被系统地读错，那么在consensus之后它也仍然是错的，且这一错误是无法通过增加coverage克服的。而SMRT测序技术的consensus准确率之所以能够>99.999%，*关键的一点就是由于single-pass的错误是随机错误，这意味着随着coverage的增加，这种随机错误可以很快被消减掉。这点已经有多篇publications进行了理论及实践验证2,3。图3说明了SMRT测序的准确度与coverage之间的关系，星号代表与reference达到100%一致。

为了判断准确度是否能达到QV50或以上，需要把consensus序列与已知的精准的参考序列相比较（例如已有金标准参考序列的物种）。可以采用某些已被Sanger测序广泛测过的细菌基因组作为标准，如E.coli和S.aureus。该图表明了虽然SMRT-sequencing reads的单次读取的准确性比其他方法略低，但是一旦增加coverage，准确率就可以快速提升，很多情况下可以实现完美的参考基因组。我们可以从Table 1看到，SMRT测序的准确性甚至可以达到>QV60，也就是1百万个碱基里面只发生1个碱基错误。

SMRT Sequencing的consensus准确率可以超越其他测序方法，就是因为它是随机错误。这也是很多研究都采用SMRT Sequencing来验证基于其他平台发现的SNPs的根本原因2,4-Table 1中高亮显示的就是consensus之后的准确性。在该例中，对于任何测序平台来说，有意义的也都是consensus结果，而非单次读取的结果。