SMRT测序文献阅读笔记

最新推荐文章于 2023-01-09 11:29:09 发布

wangchuang2017

最新推荐文章于 2023-01-09 11:29:09 发布

阅读量1.6k

点赞数 1

本文链接：https://blog.csdn.net/u010608296/article/details/111650997

版权

生物信息学同时被 3 个专栏收录

642 篇文章 397 订阅

订阅专栏

第三代测序技术

257 篇文章 24 订阅

订阅专栏

测序技术

93 篇文章 103 订阅

订阅专栏

SMRT测序文献阅读笔记

生信start_site关注

0.0912020.12.12 10:33:24字数 4,422阅读 56

单分子实时定量测序技术（SMRT）

写这篇笔记是因为可能以后的工作中会用到这个技术，而我之前并不了解它。所以这篇文献阅读笔记就算是对SMRT先有个大体的认识。这篇文章是2018年发表在Nucleic Acids Research杂志上的，题目是Single molecule real-time (SMRT) sequencing comes of age: applications and utilities for medical diagnostics。我并不打算对这篇文献的全文进行翻译，只挑其中的重点进行记录。如果有需要的同学可以自行下载这篇文章阅读。

摘要

短read的大量平行测序已经是临床诊断上的标准工具。然而，短Read技术有其局限性，比如GC bias，比对到重复区域比较困难，对phasing等位基因也有一定的难度。长read单分子测序可以解决这些难题。而且，它可以提供更高精确度，并且检测天然DNA的表观修饰。第一个商业化的长read单分子测序平台是RS系统，它基于PacBio的单分子实时定量测序技术，之后又有了RSII和Sequel系统。这篇文献主要讲解SMRT测序是如何工作的，以及在生物各个领域的应用。

前言

现代医学基因组研究和诊断都高度依赖DNA测序技术。测序技术在各个领域都有着广泛的应用，从产前诊断，到新生儿筛查，再到诊断稀有疾病、肿瘤遗传学形式、遗传药理学检测和易患疾病的检测。

测序技术的历史可以分为三个阶段：一代、二代和三代。虽然早期的一代测序技术提供了开创的发现，但是测序技术最大的突破还是开始于“链终止”或者双脱氧技术。也就是今天我们说的Sanger测序技术。化学技术的进步，以及从凝胶电泳到毛细管电泳的转变，使得目前的Sanger电泳仪能够提供低通量，高达1 kb的高质量读取。Sanger测序仍作为孟德尔疾病的诊断金标准，和高通量测序结果的靶向验证。

21世纪的第一个十年，出现了多种DNA测序新方法。与第一代平台相比，这些新的第二代技术有更短的reads(最多几百bp)，但有更高的通量(每次运行高达数十亿reads)。常见的基于荧光的短reads平台包括Illumina桥式扩增和测序的合成技术(如HiSeq和MiSeq)，罗氏454焦测序仪，利用寡核苷酸连接和检测应用生物系统的测序(SOLiD)平台。还有的短reads平台包括Ion Torrent测序仪，它通过聚合过程中释放的氢离子导致的pH值差异来检测核苷酸，而不是光信号。尽管这些短reads平台已经可以让科学家在研究和临床中快速寻找一组疾病基因、外显子组，甚至整个人类基因组中的致病突变，但它们都有共同的缺陷和缺点。短read长度阻碍了对基因组复杂部分的reads分配，变异体的相位，重复区域的测序，并在从头组装中引入gaps和模糊区域。在扩增步骤中，文库制备和/或实际测序反应中也会引入嵌合reads、重复大小的variation，以及GC富集区/缺乏区的代表性不足（underrepresentation）。综上所述，这些缺点阻碍了诊断变异检测的应用。

第三代测序一般以单分子测序为特征，与基于克隆的第二代测序方法有本质区别。Helicos首次提供了基于荧光检测和合成测序的单分子测序的商业应用。尽管缺乏扩增偏差，比如GC-rich/poor区域的代表性不足，这种早期的单分子测序仍然产生较短的reads长度(通常为35 bp)。目前两项较新的技术，PacBio公司的单分子实时(SMRT)测序和Oxford Nanopore Technologies公司的纳米孔测序(nanopore)，提供了单分子测序的优势，包括超长的read长度(>20 kb)。这些平台允许通过重复元素进行测序/组装，直接的variant phasing，甚至直接检测表观遗传修饰。测序也只需几个小时。虽然简单和低成本的nanopore技术正在流行，并可能代表未来的平台，SMRT测序目前更加成熟。

SMRT测序技术和原理

在SMRT测序之前，需要从双链DNA材料制备文库(图1A)。这通常需要5微克或更多的DNA，这可能会限制一些情况下的应用。文库的准备工作包括：简单地将Adapters连接到DNA分子上，从而将它们形成一个环状，称为SMRTbell的结构(图1B)。接下来，引物和聚合酶被退火结合到Adapter上，然后文库被加载到一个SMRT Cell上，这是一个包含150,000个纳米级观察小室(Zero Mode Waveguides，ZMWs)（RSII系统），在更新的Sequel平台上可达100万个小室。然后聚合酶结合的SMRTbells被加载到ZMWs中(图1C)。理想情况下，一个ZMW应该装载一个SMRTbell。对于一个good run，大约三分之一到一半的ZMWs含有一个SMRT cell（另外1/3的ZMW里是空的，还有1/3的ZMW里有一个以上的SMRTbell）。因此，对于RSII系统，SMRT cell通常产生约55000个reads，对于Sequel系统产生约365000个reads(表1)。实际的测序反应发生在每个ZMW内，其小直径仅允许最小的可用体积用于光检测。每个ZMW中的聚合酶结合荧光标记的核苷酸，发出荧光信号，并被摄像机实时记录下来(图1C)。这些信号被转换成称为连续的长序列，称为continuous long reads (CLR)、线性reads或聚合酶reads。对于一个短的插入文库，分子的圆形结构导致插入序列被CLR覆盖多次。原始链的每过一遍，称为subread。此外，来自同一分子的所有subread可以组合成一个高度精确的一致序列，称为环状一致序列(CCS)或reads-of-insert(ROI)(图1F-H，左侧)。这两个名词通常可以互换使用，但根据定义，CCS需要两个完整的序列，而ROI甚至可以从一个定义的部分开始。

图1

表1：每个测序系统的read长度

由于对核苷酸加入的实时检测，在测序过程中可以记录聚合酶通过DNA链的速度。两个核苷酸加入之间的时间称为脉冲间隔的持续时间(IPD)，它受DNA表观遗传变化的影响(图1 D和E)。在测序过程中由于聚合酶不是只hold一个核苷酸，而是hold大约十二个核苷酸，所以一个核苷酸表观遗传变化可以影响周围的核苷酸的结合率。这就产生了一个“fingerprint”，其中一些已经被鉴定出来了，比如6-mA，4-mC和(tet转换)5-mC。

除了更少但更长的read之外，PacBio数据与短read测序技术在几个方面存在差异。首先，reads不是一个固定的长度，而是一个reads长度的分布，它取决于每个聚合酶的活性。由于在文库准备和测序过程中都不需要扩增，因此几乎不存在GC偏倚。在与第二代平台相反，原始的PacBio的reads在错误类型上也不同(indels多于mismatches)，而且数量更高(∼13-15%，表1)，不过它们是随机分布在reads之间的。这种随机性使高度准确的(> 99%)来建立对同一分子进行快速多次测序(CCS reads)，或通过结合来自相同的轨迹的不同的CLR(图1 G和H)。同时，扩散上样（diffusion loading）创建一个偏好于对短分子测序的run。这种loading偏差可以通过以下方法得到缓解：使用磁珠上样，使<1 kb的分子不能与ZMWs底部结合；选择size以去除短分子；以及/或在上样过程中加入聚乙二醇以增强大分子DNA分子的包装。在不久的将来，通过施加电场迫使带电分子进入ZMW，可以实现长度独立的上样。

为了解决这些本质上不同的reads，生物信息分析需要采用现有的工具并开发新的方法，例如比对和组装。许多PacBio特定工具和pipelines(包括多路分解，创建CCS reads，长扩增子分析，重头组装和表观遗传分析)中可用PacBio SMRT分析套件(开源的，www.pacb.com/support/softwaredownloads/)，通过命令行或其SMRT Portal和SMRT链接图形用户界面进行分析。

SMRT在肿瘤研究中的应用

在癌症患者的治疗过程中，监测可能导致恶性细胞增殖优势的低频率突变是至关重要的。慢性粒细胞白血病(CML)是一种血液癌症，它是由9号染色体和22号染色体之间的易位引起的，导致BCR-ABL1融合蛋白的产生。CML患者通常使用酪氨酸激酶抑制剂(TKIs)抑制BCR-ABL1，但该治疗可诱导点突变，导致耐药。因此，筛选TKI治疗效果不好的CML患者的BCR-ABL1基因，并研究其突变情况是很重要的。在Cavelier等人的研究中，从BCR-ABL1的cDNA构建了一个约1.5 kb的扩增子。SMRT测序可以检测到1%水平的TKI耐药突变，与Sanger测序15-20%的检测阈值相比，显著降低（换句话说就是灵敏度提高了很多）。此外，有可能对共存突变进行相位分析，从而提供有关BCR-ABL1耐药突变克隆分布的新信息，并识别许多不同的剪接亚型。除了BCR-ABL1之外，还有其他一些适合SMRT测序的临床靶标基因(表2)。在一项肿瘤抑制基因TP53的loss-offunction突变研究中，SMRT测序显示，在急性髓细胞白血病(AML)和myelodysplatic综合征(MDS)患者中，拥有多个TP53突变，分布在不同的等位基因。未来，关于TP53亚克隆异质性的详细信息可以用来指导这些患者的治疗。在与癌症无关的其他类型的体细胞变异中也可以检测到微小的变异。Gudmunsson等人利用SMRT测序获得了导致角膜炎-鱼鳞病-耳聋综合征患者皮肤损伤修复的GJB2的体细胞嵌合突变的相位信息。

表2

全基因组和转录组测序(后面将介绍)目前还只能用于研究，但在不久的将来将成为诊断的选择。已经进行了全基因组和转录组SMRT测序已被应用于乳腺癌细胞模型，以识别已知癌基因Her2的新基因融合事件(案例研究:www.pacb.com/wp-content/uploads/Case-Study-Scientists-deconstruct-cancer-complexitythrough-genome-and-transcriptome-analysis.pdf)。前列腺细胞模型的全转录组测序也发现了前列腺癌中新的RLN1和RLN2基因融合。重要的是，SMRT测序可以提供更精确的癌症基因结构，Kohli等人的一项研究证实了这一点。在这项研究中，在AR-V9中检测到一种以前认为只存在于AR-V7中的隐性外显子。AR-V7已被作为前列腺癌耐药的潜在生物标志物，其基础是实际上针对这两种亚型的敲除实验。因此，AR-V9实际上可能是耐药性的预测性生物标志物。

表观遗传学的全面变化也是癌症的一个标志。单分子实时亚硫酸氢盐测序(SMRTBS)能够定量并高度多路检测1.5 - 2kb扩增子的甲基化。这是对以前技术的改进，以前的技术只能针对典型的亚硫酸氢盐PCR大小(约为300-500 bp)，并且有可能评估人类基因组中约91%的CpG岛。到目前为止，该方法已应用于多种肿瘤细胞系，包括急性髓系白血病、慢性髓系白血病、间变性大细胞淋巴瘤、浆细胞白血病、Burkitt淋巴瘤、B细胞淋巴瘤和多发性骨髓瘤。扩展到全基因组诊断，当对非扩增的材料进行全基因组SMRT测序时，理论上可以根据IPD比值确定所有核苷酸的表观遗传状态。

Future:全转录本和全基因组测序

传统上，RNA被转化为cDNA，然后片段化进行短reads测序(RNA-seq)。将RNA-seq检测到的外显子组装成单独的转录本非常困难，并容易出错。SMRT测序不需要片段化，称为Iso-Seq。这是一种理想的完整cDNA测序方法。Iso-Seq已经被用于全转录组测序，样品来自一个正常的中国成年男性的血液，20个不同正常的人体组织和器官的RNA库，三个lymphoblastoid转录组，以及前列腺癌和乳腺癌细胞模型(案例研究: www.pacb.com/wpcontent/uploads/Case-Study-Scientists-deconstruct-cancer-complexity-throughgenome-and-transcriptome-analysis.pdf)。与复杂的短reads比对和重组不同，这些论文证明长reads可以很容易地检测到人类基因中的剪接异构体（splicing
isoforms）。除了检测大量已知的亚型外，该方法还识别了以前短reads测序未检测到的新剪接形式和基因(93)。与基因组variant相位类似，对于转录的单核苷酸变异的基因位点，这些可以用来精确地确定哪个等位基因异构体被表达。虽然Iso-Seq在转录结构确定方面很特殊，但与第二代平台相比，其低通量目前限制了其用于表达分析。然而，随着成本的降低和通量的增加，无bias的PacBio表达和isoform检测将在不久的将来成为常规方法。

全基因组测序(WGS)已成为研究人类基因组变异的一种广泛使用的方法。然而，这些短reads的性质只提供SNP和小插入/删除以外有限的variation信息。SMRT测序极大地扩展了WGS的用途，允许更大的组装完整性(BioRxiv:https://doi.org/10.1101/067447)，甚至接近参考基因组的contig大小。这些PacBio的WGS也显示出大量的变异被短reads的WGSs所遗漏。从人类个体的从头组装中还发现了另外一个值得注意的发现，即似乎存在若干个megabases的新序列，即目前人类参考基因组(GRCh38)中所没有的序列。例如，Shi等人在他们重新组装的个体基因组中发现了12.8 Mb的新序列，这相当于整个人类基因组(约为3 Gb)的0.4%以上。此时，我们还不知道这个新序列是否在所有人类个体中都存在(因此在GRCh38中缺失)，或者它是否主要代表了仅在某些特定个体或群体中发现的序列变异。总的来说，这些WGS研究表明，长read测序可以识别大量短read平台遗漏的变异，包括那些与临床诊断相关的变异。

下面还有一些参考的文章和视频，讲的都挺好的，我就列了出来，供参考：
1.从零开始完整学习全基因组测序（WGS）数据分析：第1节 DNA测序技术
2.【三代】浅谈三代测序平台
3.https://youtu.be/_lD8JyAbwEo
4.陈巍学基因视频3：Pacific Biosciences Sequencing