SMRT测序的优势

170 篇文章 7 订阅
93 篇文章 101 订阅

SMRT测序的优势

  • 理查德·罗伯茨( Richard J Roberts)
  • 毛里西奥·卡内罗( Mauricio O Carneiro)和
  • 迈克尔·沙茨(Michael C Schatz) 

基因组生物学 卷 14,产品编号:  405(2013) 

  • 本文 的 勘误已发表在Genome Biology 2017 18:156中

抽象

在当前的下一代测序技术中,有时会忽略SMRT测序。但是,长读取,修饰碱基检测和高精度等属性使SMRT成为有用的技术,是对小基因组进行完整测序的理想方法。

Pacific Biosciences的单分子实时测序技术SMRT是目前使用的几种下一代测序技术之一。在过去,由于与Illumina和Ion Torrent之类的方法相比吞吐量较低,并且由于不断传言它不准确,它在某种程度上被忽略了。在这里,我们试图消除这些误解,并表明SMRT确实是一种高度准确的方法,当用于对小型基因组进行测序时,具有许多优势,包括无需进行额外实验即可轻松关闭细菌基因组的可能性。我们还强调了其在检测DNA中修饰碱基的价值。

延长读取长度

由于核酸序列中编码的大量信息,所谓的新一代DNA测序技术已渗透到生物学的各个方面。但是,当今的下一代测序技术(例如Illumina,454和Ion Torrent)具有几个明显的局限性,特别是读取长度短和扩增偏差,这限制了我们对基因组进行完全测序的能力。不幸的是,随着下一代测序技术的兴起,人们越来越不重视在生物学和生化水平上了解新发现的基因具有什么功能以及这些功能如何使生物体起作用,这无疑就是我们为什么要这样做的原因。首先对DNA进行测序。现在是一项新技术,来自Pacific Biosciences的SMRT测序[ 1],已经开发出来,不仅可以从单个未扩增的分子中产生相当长和高度准确的DNA序列,而且还可以显示甲基化碱基的位置[ 2 ](从而提供有关基因组编码的DNA甲基转移酶的功能信息)。

SMRT测序是一种基于合成的测序技术,该技术基于荧光标记的核苷酸沿单个DNA模板分子进行合成的实时成像。因为该技术使用DNA聚合酶来驱动反应,并且因为它使单个分子成像,所以信号不会随时间而下降。相反,当模板和聚合酶解离时,测序反应结束。结果,代替了其他技术所见的均匀读取长度,读取长度具有近似对数正态分布且尾巴较长。当前PacBio RS仪器的平均读取长度约为3,000 bp,但某些读取可能为20,000 bp或更长。这是下一代测序仪器读取长度的大约30到200倍,与两年前该仪器的原始版本相比,已经有了四倍的改进。值得注意的是,最近宣布的PacBio RS II平台声称具有进一步的四倍改进,其平均读取长度是当前机器的两倍,吞吐量是当前机器的两倍。

SMRT测序的应用

SMRT排序方法具有多个优点。首先,考虑较长阅读的影响,特别是对于从头读新基因组的集合。虽然典型的下一代测序可以提供足够的基因组覆盖范围,但是每当遇到复杂的重复序列或扩增区域较差时,这些技术的短读长度和扩增偏差都会导致组装碎片。结果,往往难以扩增的GC富集区域和GC贫乏区域特别容易受到不良质量测序的影响。解决零散的装配需要额外的昂贵工作和进一步的排序。通过还包括更长的SMRT测序运行读数,该读数集将涵盖更多的重复序列和缺失的碱基,从而自动填补许多空白,并简化甚至消除了完成时间(图1)。)。它正在成为例程细菌基因组,以使用这种方法被完全组装[ 34],并且我们希望这种做法会在不久的将来转化为更大的基因组。完整的基因组比乱扔GenBank的劣质草稿序列有用得多,因为它为生物提供了完整的设计图。其中编码的基因代表了该生物的全部生物学潜能。只提供草图装配,总是让人感到有些关键基因的缺失-也许是您最感兴趣的一个!较长的阅读长度还具有更大的能力,可以揭示DNA样品中存在的复杂结构变异,例如精确指出相对于参考序列发生拷贝数变异的位置[ 5]。它们对于从cDNA文库解析复杂的RNA剪接模式也非常强大,因为单个长读可能会端到端包含整个转录本,从而无需推断同种型[ 6 ]。

图1

图1

5.2兆碱基对的炭疽杆菌埃姆斯祖先主染色体的理想装配图18 ] 使用(a)100 bp,(b)1,000 bp和(c)5,000 bp读数。这些图对从无限覆盖的无错误读取中获得的压缩de Bruijn图进行编码,有效地代表了基因组中的重复序列以及在实际装配中所能达到的上限。读取长度的增加会减少重叠群的数量,因为较长的读取会覆盖更多的重复序列。请注意,具有5,000 bp读数的装配体具有自我边缘,因为染色体是圆形的。

其次,考虑DNA甲基转移酶。这些可以作为单独实体存在,也可以作为限制修改系统的一部分存在。在这两种情况下,它们都使相对短的序列基序甲基化,这很容易从SMRT测序数据中识别出来,这是因为随着表观遗传修饰的存在,DNA聚合酶动力学沿着模板分子移动时,其变化。改变的动力学引起观察到荧光颜色的时间的改变,因此使得能够直接检测通常只能推断的表观遗传修饰,并且绕开了通常的富集或化学转化的必要性。通常,由于生物信息学的原因,负责任何给定修饰的基因可以与修饰所在的序列基序匹配[ 78 ]。如果不能,则只需将基因克隆到质粒中,然后在非修饰宿主中生长并重新测序,即可提供匹配[ 9 ]。此外,SMRT测序还能够通过与DNA碱基修饰相同的方法来鉴定RNA碱基修饰,但是使用RNA转录酶代替DNA聚合酶[ 10 ]。事实上,SMRT测序表示朝向揭露的DNA和蛋白质之间发生,不仅包括mRNA序列的研究,而且翻译的调节[生物学的一个重要步骤1112 ]。因此,功能信息直接来自SMRT测序方法。

第三,我们必须考虑一直存在的谣言,即SMRT测序比其他下一代测序平台的准确性低得多,现在已经在多种方面证明了这一点是不正确的。首先,对确定遗传多态性的几种方法的直接比较表明,SMRT测序的性能可与其他测序技术媲美[ 13 ]。其次,组装使用SMRT测序在与其他技术相结合的完整基因组的准确度已证明是可靠和精确的更传统的方法[ 3614 ]。此外Chin等。15]显示仅使用长SMRT测序读码的装配体可达到与其他平台相当甚至更高的性能(在具有已知参考序列的三种生物中,其准确性为99.999%),包括对这些基因组的Sanger参考进行11次校正。Koren等。6 ]表明,通过这种方法,大多数微生物基因组可以被组装成每个染色体一个重叠群。这是迄今为止最便宜的选择。

揭穿错误神话

SMRT测序数据的功能不仅在于其较长的读取长度,而且还在于错误处理的随机性(图2)。的确,与Illumina和其他技术的Q30至Q35相比,单个读取包含的错误数量更高:大约11%至14%或Q12至Q15。但是,给定足够的深度(例如8倍或更多),SMRT测序可为基因组提供高度准确的统计平均共识观点,因为同一错误不可能多次被随机观察到。众所周知,发现其他平台存在系统错误,需要在产生最终序列之前通过补充方法加以解决[ 16 ]。

图2

图2

对NA12878全基因组数据的两个平台的经验插入错误率的测序上下文分解。在此图中,我们显示了以AAAAA开头的所有大小为8的上下文。经验插入质量得分(y-轴)已按比例缩放。尽管PacBio RS仪器的错误率较高(约Q12),但错误与测序环境无关。已知其他平台针对不同的测序环境具有不同的错误率。如图所示,Illumina的HiSeq平台具有较低的错误率(在八个独立的运行中,错误率约为Q45),但是诸如AAAAAAAA和AAAAACAG之类的上下文具有非常不同的错误率(Q30与Q55)。此特定于上下文的错误率会产生偏倚,而更大的测序深度则无法轻易澄清。使用基因组分析工具包(GATK)-基本质量得分重新校准工具测量了经验插入错误率。

受益于SMRT错误谱图随机性的另一种方法是使用循环共有读段,其中测序读段产生了对同一碱基的多个观察值,以便从单个分子生成高精度共有序列[ 17 ]。这种策略以读取长度为准确性进行了折衷,在某些情况下(定向重测序,基因组较小)可以有效,但如果可以在测序数据中实现一定程度的冗余(则建议使用8倍),则不需要此策略。有了这种冗余,与选择循环共有读段相比,从较长的插入片段中获得更好的映射关系是更可取的,因为较长的读段将能够跨越更多的重复序列,并且仍然可以从其共有序列中获得较高的准确性。

结论

上面的考虑为将其他技术的更传统的序列密集数据与SMRT数据的至少中等覆盖范围相结合提供了强有力的理由,以便可以改善基因组,获得其甲基化模式并推导其甲基转移酶基因的功能活性。我们特别敦促当前对细菌基因组进行测序的所有小组采用此政策。也就是说,SMRT测序还大大改善了真核生物的基因组组装,并且鉴于PacBio RS II仪器的更长的读取长度和更高的通量,我们希望它随着时间的流逝而在此环境中得到更广泛的应用。

也许甚至值得重做许多基因组,以便可以关闭基于shot弹枪数据集的现有程序集并获取其完整的甲基化组。由此产生的组装(epi)基因组在本质上将更有价值:一个封闭的基因组及其甲基转移酶基因具有相关功能注释的实用性远远超过a弹枪数据集所带来的不确定性。虽然我们目前对高级真核生物的表观遗传现象的重要性了解很多,但对细菌和低等真核生物的表观遗传学知之甚少。SMRT测序打开了一个新窗口,可能会对我们对这种生物学的理解产生巨大影响。

缩略语

bp:

碱基对。

参考文献

  1. 1。

    Eid J,Fehr A,Gray J,Luong K,Lyle J,Otto G,Peluso P,等级D,Baybayan P,Bettman B,Bibillo A,Bjornson K,Chaudhuri B,基督徒F,Cicero R,Clark S,Dalal R ,Dewinter A,Dixon J,Foquet M,Gaertner A,Hardenbol P,Heiner C,Hester K,Holden D,Kearns G,Kong X,Kuse R,Lacroix Y,Lin S等人实时DNA测序单个聚合酶分子。科学2009年,323: 133-138。

    中国科学院 文章 考研 谷歌学术 

  2. 2。

    Flusberg BA,Webster DR,Lee JH,Travers KJ,Olivares EC,Clark TA,Korlach J,Turner SW:在单分子实时测序过程中直接检测DNA甲基化。纳特方法2010,7: 461-465。

    中国科学院 文章 考研 PubMed Central 谷歌学术 

  3. 3。

    Ribeiro FJ,Przybylski D,Yin S,Sharpe T,Gnerre S,Abouelleil A,柏林AM,Montmayeur A,Shea TP,Walker BJ,Young SK,Russ C,Nusbaum C,Jaffe DB:来自shot弹枪序列数据的完整细菌基因组。基因组RES 2012,22: 2270年至2277年。

    中国科学院 文章 考研 PubMed Central 谷歌学术 

  4. 4。

    Koren S,Harhay GP,Smith TP,Bono JL,Harhay DM,Mcvey DS,Radune D,Bergman NH,Phillippy AM:通过单分子测序降低微生物基因组的装配复杂性。http://arxiv.org/abs/1304.3752 ]

  5. 5,

    马伦LG,吉马良斯CT,柯斯特M,阿尔伯特PS,伯奇勒JA,布拉德伯里PJ,巴克勒ES,科鲁奇奥AE,达尼洛娃电视台,库德纳D,马加勒斯合资公司,皮涅罗斯MA,沙特兹MC,WING RA,科奇安LV:玉米的铝耐性为与更高的MATE1基因拷贝数相关。PROC纳特科学院院刊USA 2013,110: 5241-5246。

    中国科学院 文章 考研 PubMed Central 谷歌学术 

  6. 6。

    Koren S,Schatz MC,Walenz BP,Martin J,Howard JT,Ganapatthy G,Wang Z,Rasko DA,McCombie WR,Jarvis ED,Phillippy AM:单分子测序读取的混合错误校正和从头组装。纳特生物技术2012,30: 693-700。

    中国科学院 文章 考研 PubMed Central 谷歌学术 

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wangchuang2017

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值