基因测序技术总结
Peng_001已关注
62020.05.17 17:37:21字数 3,646阅读 1,701
参考: 从零开始完整学习全基因组测序数据分析:第1节 测序技术
作者:碱基矿工
参考:【陈巍学基因】视频1:Illumina测序化学原理
前言
什么是全基因组测序?
全基因组测序,英文为Whole Genome Sequencing,简称WGS,指的是把物种细胞里面完整的基因序列,从第一个DNA开始,一直到最后一个DNA,完完整整地检测出来,并排列好。
全基因测序的意义?
全基因测序,理论上可以得出基因组上任何类型的突变。包含了所有基因与其的生命特征的关联信息。
测序技术
第一代测序技术
第一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法。(Sanger 法)
世界上第一个全基因序列(噬菌体phiX-174),就是由桑格在1977年完成的。
原理
huangshujia博客园
第一代测序技术主要借助于ddNTP
(NTP 包含了ATCG四种类型),这是一种具有荧光标记的核酸,且2’和3’都不含羟基,因此在DNA合成过程中无法形成磷酸二酯键,当核酸序列连接ddNTP
后,就会中断连接。
因此,如图显示,在DNA 合成反应体系中,分四组加入一定比例的四种ddNTP
,在遇到对应位置的ddNTP
时,反应就会终止。在不同的组别下会形成不同长度的核酸序列。
由于使用的ddNTP
具备荧光标记,接着使用凝胶电泳与显影技术,便可以得到电泳的条带。根据不同组别不同条带终止的位置,就可以读出对应条带下对应组别(A,T,C,G)的碱基信息。从而实现测序。
至于说为什么不同组别(A,T,C,G)内的DNA 可以生成不同的条带,因为所有的核酸,与某一种特定的ddNTP,与对于位置的上一条核酸结合的概率是相同且随机的。因此在大量的核酸与引物下,可以合成所有ddNTP 可能结合的部位,而结合该部位的ddNTP 则通过条带显示出来。
优点&缺点
优点:测序准确率高,高达99%。
缺点:通量低,成本高。
其他基于相同原理的,还有焦磷酸测序法、连接酶法等。
第二代测序技术(NGS)
我们一般说的NGS(Next Generation Sequencing),或高通量测序技术,都是指第二代测序技术。
按照上面说的一代测序特点,显然是难以进行大规模使用的,也因此并不是一个理想的大规模测序方法。
- (要是用一代测序,做人类基因组计划的方法,需要多久呀?!以前完成一个人类基因组的测序需要3年时间,而使用二代测序技术则仅仅需要1周)
Roche公司的454技术与illumina公司的Solexa/Hiseq技术和ABI公司的SOLID技术的出现,标志着NGS 的诞生。
原理
目前主流的NGS 测序,采用illumina 技术。主要采用一种边合成边测序的方法。除此之外,NGS 的特点还有其序列读长方面短很多。
1)构建DNA测序文库
使用超声波,将一堆DNA分子用超声波打断成一定长度范围的小片段。一般来说,基本都是打断为300bp-800bp长的序列片段,在两头用酶补平。接着在3'端用Klenow 酶加上一个A碱基,然后再用连接酶在小片段A碱基后面加上一段DNA序列(接头)。构建出单链DNA文库,备用。
2)流动槽(flowcell)吸附
flowcell 是用于吸附流动DNA 的槽道,是测序的反应容器。flowcell 一般由八个槽道构成,被称为lane。每个lane 的表面被设计成有很多的接头,而这些接头则可以和建库过程中加在DNA片段两端的接头配对。通常来说lane 上的接头为两种引物,正好配对DNA片段两头添加的接头。
而lane 上的接头,一般也是通过共价键的方式连到flowcell 上。因为后面的步骤会有大量液体流过flowcell,为避免引物被冲掉。
需要⚠️的是,这里lane 的引物一般被设计为一头与DNA 一端互补,一头与DNA 另一端一致。
lane 上的引物
当第一步文库构建完成后,文库中的DNA 在通过flowcell 的时候便会与lane 上的接头配对,并随机吸附在槽道的表面。
理论上lane 之间不会有相互的影响。
3)桥式PCR扩增与变性
本质是将文库种到flowcell 上并进行扩增的过程。
因为文库两头添加的DNA序列与lane 上的接头是互补的,所以当二者结合会产生互补杂交。
将文库加入到flowcell 上。会进行以下步骤。
1.杂交结合。
文库会与表面的引物结合,互补杂交。
2.合成互补链。
杂交后,会往其中加入dNTP 与聚合酶,聚合酶会从引物起始位置开始,合成文库的互补链。
3.解链。
加入NaOH 碱性溶液,DNA 双链此时会发生解链。而此时的模版链(文库),也就是没有与引物结合的链,就被冲走了。
4.重连接。
通过加入中性溶液,缓冲碱性液体。此时引物上的互补链便会和引物上的另外一个引物发生杂交。ps:此时的DNA 片段为测序DNA 片段的互补链。
5.再合成。
再次杂交后,再一次引入dNTP 与聚合酶,以原先的互补链为模版,再次合成出一条新的互补链。
6.再解链。
再次加入碱溶液,这时两条链又会解离开。而由于此时两根链都是公价连接在lane 上,并不会被冲刷走。
7.循环4-6
再次加入中性溶液,两根链又会和其他链杂交。
再次加入酶和dNTP,又会合成。
再次加入碱, 又会分离。循环下去,2**n 指数方式增长lane内合成的DNA链。
- 一个个的DNA双链,是不是和桥一样?
8.拆解双链
完成了桥式PCR 的扩增后,需要将合成的双链,拆分成可以测序的单链。理论上说,是通过化学方法,将一个引物(与lane 连接的接头)上的特定基团切掉,此时再用碱溶液来清洗该芯片。此时碱便可以让其中切除基团的DNA链冲刷掉。
9.连接测序引物
再次加入中性溶液缓冲。并在中性溶液内加入测序引物。接下来就是测序工作了。
4)测序
1.合成测序链
加入带荧光标记的dNTP,且3' 末端被叠氮基堵住。(与Sanger的有点像呢)并加入聚合酶。由于3' 末端被堵住了,所以一个循环只能延长一个碱基。
合成完成后,就用水把多余的dNTP 和酶冲掉。
2.测定碱基类型
放到显微镜下进行激光扫描。因为使用的dNTP,事先已经被荧光标记了,便可以根据其发出来的荧光,判断其碱基类型。由于新合成的碱基与模版链碱基互补,便可反推出模版上的基因类型。
3.切除叠氮基团
完成上面的循环后,接着加入一些化学试剂,把4.1 步中dNTP上的叠氮基团与荧光标记基团切除。此时3' 的羟基暴露出来,便可以继续连接新的dNTP。
4.循环1-3
不断重复加堵住3' 的荧光标记的碱基-测定碱基类型-切除标记...过程。重复上百次。
5.读取Index(Barcode)
测得了DNA序列,由于二代测序技术首先是将DNA打断为小片段的,因此便需要判断出测定结果的来源。
文库的接头上,在开始时1)做了一些标记,每一个样本有其特定的接头,每个接头里有一个特定的序列。这段特定的序列,便是index,或barcode。标记了样本的来源。
首先用碱将测完的序列(称为“read1”序列)解链洗脱掉。
接着加入中性液缓冲,然后加入新的测序引物(“read2”序列)。
一般来说,read2测序引物的结合位点,正好在index 序列的旁边。
接下来进行第二轮测序。一般是读6-8个碱基(方法同先前的4.4中的循环)。根据读出来的碱基,便可以判断出它来自于哪个原始样本。
双端测序技术
illumina 测序还应用了双端测序技术。允许从正向和反向读取DNA链,便将illumina 测序的有效长度加了一倍。
除此之外,flowcell 上的8个lane 上,可以有上亿个点提供DNA链的合成,每个类型(来源)的DNA链可以形成一个cluster,而每一个cluster,都是由一样的DNA 链构成。
而上亿个彼此不同的cluster,便实现了很高的测序数据量。(同时对不同的DNA序列进行上述1-4步骤)
优点&缺点
优点:高通量,成本低。
缺点:错误率相比Sanger 法高,主要来源是碱基替换过程可能会出错。(4.1 合成测序链)
-
不同测序仪比较
第三代测序技术
第三代测序,最大的特点就是实现了单分子测序,因此也被叫做单分子测序。以以PacBio公司的SMRT和Oxford Nanopore Technologies的纳米孔单分子测序为代表。
而正因其是单分子测序,因此测序过程也无需进行PCR扩增,可以实现超长读长。
PacBio SMRT 测序原理
SMRT 本质也是采用了边合成边测序的思想,以SMRT 芯片(flowcell)为载体进行测序。
首先在flowcell 中添加聚合酶和荧光标记的dNTP。而在碱基配对结合时,SMRT芯片 会利用ZMW(零模波导孔)原理 将反应信号与周围碱基的荧光背景区分,并捕获配对的碱基信号,根据该信号(光的波长与峰值)判断碱基类型。
SMRT 测序中,DNA聚合酶是实现超长读取测序信息的关键。酶的活性越强,其合成时间越长,能够读取到的DNA片段信息就越长。而用于检测的激光则会对酶造成一定的损伤。
零模波导孔原理
在一个SMRT芯片反应管中(SMRTcell),有许多圆形纳米小孔,外径100多纳米,小于几百纳米的检测光的波长。因此能量并不会辐射到周围,而是保持直线状态,起到了保护的作用。
正因此,检测激光从底部打入SMRTcell 后不会穿透小孔进入上方的溶液区,能量会被限制在一个小范围,正好足够覆盖需要检测的部分。
而信号仅仅只是来自于这个小反应区域,孔外背景中其他的dNTP 依然在黑暗中,从而实现降低背景噪音的目的。
甲基化检测
SMRT 技术不仅能够通过信号进行单分子测序,还可以通过检测相邻碱基的测序时间,从而判断出碱基的表观修饰情况,如甲基化等。
若碱基存在甲基化修饰,则其通过DNA 聚合酶的时间会延长,信号中相邻两峰之间的距离会增大,因此可以借助该时间差异进行判断。
优点&缺点
优点:快!检测速度可达到 10 dNTP/s。单分子测序,超长读取。
缺点:错误率高(单分子测序通病),可达到10%-15%,主要是序列缺失及错位。但可以通过多次测序进行弥补。
Oxford Nanopore 测序技术
由Oxford Nanopore 研发的MinION,由于精巧的体积,被俗称为U盘测序仪。
测序原理
与其他测序技术,包括一代、二代及SMRT 测序技术都不相同的是,minION 采用了电信号技术而非光信号对碱基进行测序。
该测序仪中有一种特殊的纳米孔,而孔内则共价结合了分子接头。
当DNA分子通过纳米孔时,这些分子使纳米孔内的电荷发生变化,从而短暂的影响流过纳米孔的电荷强度。
而不同碱基所影响电流的幅度又是有差异的,通过高灵敏度的检测设备,可以检测到这些细微变化,从而坚定出通过的碱基类型。
甲基化检测
和SWRT 芯片一样,minION 也可以读出甲基化的胞嘧啶。
优点&缺点
优点:读长更长,甚至优于SMRT,在几十到上百kb,甚至可以达到900kb。数据可以实时读取,且起始DNA 在测序中不会被破坏。
缺点:依旧是错误率高。