三代测序及基于三代数据的基因组组装流程评估

三代测序及基于三代数据的基因组组装流程评估 

 

名词解释

1D:ONT平台仅测一个DNA分子的一条链,测序通量比2D高但准确率低于2D序列。

2D:bi-directional reads即ONT平台测DNA分子的正负两链并互相矫正合并的测序数据。

OLC:Overlap-Layout-Consensus算法,先查找全部序列的重叠区域(overlap),基于重叠区域可以获得全部序列的布局图(layout),最终依此预测一致性序列(consensus),该算法为一/三代测序(长序列)的主流算法。

DBG:De-Bruijn graph算法,先将序列打断为更短的k-mer,然后再进行构图,该算法为二代测序(短序列)的主流算法。

Na50:将组装结果从组装错误点打断再进行N50统计的结果。

背景介绍

测序平台及其优势介绍:

PacBio(Pacific Biosciences) RSⅡ后续为方便描述会将该平台的数据简称为PacBio数据:

利用单分子荧光技术进行测序,测序读长为5-60kb(平均长度12kb左右)。

测序错误极少存在偏好性,绝大部分为随机错误,可加大测序量矫正至错误率低于0.01%。

数据产出量高,每个run能产出1Gb的数据。

MinION(Oxford Nanopore Technology)后续为方便会将该平台的数据简称为ONT数据:

利用纳米孔测序技术进行测序,1D数据最长可达300kb,2D也可以达到60kb。

测序数据为双链测序,单次测序正确率略高于PacBio。

测序仪小巧,便于携带。

组装流程及其基础算法介绍:

基于OLC(Overlap-Layout-Consensus)算法的流程:

a) PBcR-Self:仅使用三代数据进行PBcR组装的流程

b) PBcR-Miseq:使用二代(Miseq)三代数据进行混合组装的PBcR流程

c) Canu

d) Falcon

e) SMARTdenovo(无碱基矫正步骤)

基于DBG(De-Bruijn graph)算法的流程:

a) ABruijin

流程自带算法的流程:

a) Miniasm(基于overlap延伸,无碱基矫正也无组装结果矫正)

b) Racon(基于Miniasm组装结果进行矫正)

基因组测序篇

本次实验使用两个三代平台(RSⅡ、MinION)分别对酿酒酵母S288C、N44、CBS、SK1进行测序比试其测序结果如何,测序结果统计如下:

从图中可以明显的看到,PacBio的数据产出量远高于ONT,但是ONT的测序数据平均长度高于PacBio。

关于图中ONT数据S288C的测序数据中存在较高的杂峰的问题,作者在使用ONT对S288C的测序中使用了两种flowcell——R7.3&R9,R9的测序精确度高,但是在本次的实验中R9的数据产出及通过量却少的惊人,两个flowcell只产出了700Mb的2D数据,其中2D-Pass只有60Mb,因此作者只能将R7.3和R9的数据合并在一起作为ONT的数据进行统计。即便如此,ONT的数据也只有61X的数据(平均约参考基因组大小的61倍的数据),2D-Pass数据仅31X。相比之下,PacBio 120X的测序数据就显得非常优异了。

基因组组装篇

三代基因组组装时数据量对组装结果的影响较大且ONT的数据量偏少,为了消除数据量差异造成的组装结果差异,作者将PacBio的数据抽提成ONT水平的数据,具体参照指标是ONT数据的数据量、基因组覆盖乘数及测序数据长度分布,抽提结果如下:

在尽可能消除了数据量及长度差异对组装造成的影响后,正式进入组装步骤。

两测序平台数据于八个组装流程的组装结果如下表:

ONT数据组装结果统计表

PacBio数据组装结果统计表

每个流程于评测指标中最好的部分均已加粗,由于PBcR-Miseq在Identity方面表现过于优异,因此在Identity方面还会将第二位的流程的数据字体加粗并加上下划线。这里也引入了一个新的概念Na50,可以依此判断流程正确组装的程度。作者也选取了酵母数据库中的S288C的全部基因(6615个)用BWA比对到各个组装结果中以作为一个评判基因组组装结果的指标。

从上面的统计表中我们可以看到,在二代三代混合组装流程(PBcR-Miseq)相比于其他全三代数据组装流程,混合流程组装结果拥有最高的Identity,最少的错误组装和SNP/InDel,但是缺点也很明显,消耗更多的资源以及装出了远超于三代流程的Contig数目。

在三代组装流程的混战中就可以说是各有千秋了:Miniasm占用的组装资源最少,但是组装结果却不让人满意,Racon基于Miniasm的结果进行矫正可以在使用ONT数据时提供最高的准确率使组装结果更加完整但是在占用资源方面却不再拥有绝对优势;SMARTdenovo相比于其他流程占用资源量较少,且组装结果较为优秀;Canu&PBcR-Self在使用PacBio数据的时候提供了非混合流程中最高的准确率且在数据量减少的情况下依旧能组装出不俗的结果。

数据平台差异分析

两平台数据的组装结果在除了InDel平均数量和线粒体的组装完成度方面以外都表现出了相当高的一致性,因此作者在InDel方面进行了深入地研究。

研究发现,ONT平台在同聚体(homomer)方面的测序结果不如人意,在Canu的组装结果和参考基因组的比对中发现绝大部分的插入缺失都是5-homomers(“AAAAA”,”TTTTT”,”CCCCC”,”GGGGG”),但是有趣的是在用Nanopolish对Canu的组装结果进行修正之后,这些缺失大部分都会被填上,偶尔还会多出一些。

可惜Nanopolish在对于12.1Mb大小基因组的31X2D数据进行处理的时候占用了1835个小时的CPU时间,这也决定了在更大数据量的基因组组装的过程中Nanopolish很难在派上用场。

在线粒体组装的过程中,使用PacBio数据的流程Racon, SMARTdenovo和Canu都完成了完整线粒体的组装,Miniasm也重构出了77%的线粒体,但是在ONT数据方面除了可以使用二代数据进行矫正的PBcR-Miseq流程完成了96%的线粒体基因组组装,其他流程中组装最好的流程Falcon&Canu分别组装了67%和64%的线粒体基因组。

为了查明线粒体组装和核染色体差异的问题,作者将S288C参考基因组每个染色体中的5-homomers按照长度平均后与线粒体的平均5-homomers做比值后发现,线粒体中的5-homomers的比例远高于其他染色体。

总结篇

31X的三代数据就可以组装出可信度高于98%(ONT)、99%(PacBio),Na50s大于550Kb的组装结果,当混入二代数据作为辅助的时候可将可信度提高到99.98%

PacBio的测序数据平均长度明显低于ONT,但是ONT的数据产出量却远低于PacBio,这可能是由于使用的ONT试剂不够稳定,近期的ONT试剂已经表现出了很高的稳定性。同时本文对比的是PacBio RSⅡ和MinION,将一个台式平台与移动平台进行对比无法说明测序方法之间的差异(移动平台总会牺牲部分性能)。

PacBio的测序错误绝大部分为随机错误可以通过加大测序深度来规避该类错误,ONT的测序错误则可能会对某些特殊序列结构如5-homomers有一定程度的偏好性,这种偏好性可能会导致高同聚体比例的线粒体等组装远低于预期。因此ONT的polish步骤很重要,但过于耗时。

在数据组装方面:

a) 二代数据与三代数据的混合流程能组装出可信度最高的组装结果,但是其组装出来的小片段也最多。

b) PBcR-Self和Canu组装出了最连续又精确的基因组,并在三代数据减少的过程中依旧表现出最好的组装能力。

转载于:https://www.cnblogs.com/wangprince2017/p/10862596.html

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
高通量测序的代码和操作流程会因为使用的测序平台、数据分析软件和具体分析要求而有所不同。下面是一些常用的高通量测序代码和操作流程,仅供参考: 1. Illumina 测序 Illumina 是目前使用最广泛的高通量测序平台之一。其操作流程大致如下: 1. DNA 或 RNA 样品制备:样品可以是血液、组织、细胞等。首先需要提取 DNA 或 RNA,并进行纯化和定量。 2. 文库构建:将 DNA 或 RNA 样品片段化,并用连接器连接到载体上,构建文库。 3. PCR 扩增:使用 PCR 扩增文库中的 DNA 片段,使其扩增到足够的数量,以便进行测序。 4. Illumina 测序:将 PCR 扩增的文库中的 DNA 片段进行测序,可以使用 Illumina 的 HiSeq、MiSeq、NovaSeq 等测序仪器。 5. 数据分析:对测序得到的原始数据进行质量控制、序列比对、变异检测、基因表达分析等数据分析步骤,可以使用软件包括 BWA、Samtools、GATK、DESeq2 等。 2. PacBio 测序 PacBio 是一种单分子实时测序技术,可以得到长读长序列。其操作流程大致如下: 1. DNA 样品制备:首先需要提取 DNA,并进行纯化和定量。 2. 文库构建:将 DNA 样品分子化,并用连接器连接到载体上,构建文库。 3. PacBio 测序:将文库中的 DNA 分子进行测序,可以使用 PacBio 的 RS II、Sequel 等测序仪器。 4. 数据分析:对测序得到的原始数据进行质量控制、序列比对、变异检测等数据分析步骤,可以使用软件包括 SMRT Analysis、Canu、Quiver 等。 3. Oxford Nanopore 测序 Oxford Nanopore 是一种基于纳米孔技术的高通量测序技术。其操作流程大致如下: 1. DNA 或 RNA 样品制备:样品可以是血液、组织、细胞等。首先需要提取 DNA 或 RNA,并进行纯化和定量。 2. 文库构建:将 DNA 或 RNA 样品分子化,并用连接器连接到载体上,构建文库。 3. Nanopore 测序:将文库中的 DNA 或 RNA 分子通过纳米孔进行测序,可以使用 Oxford Nanopore 的 MinION、PromethION 等测序仪器。 4. 数据分析:对测序得到的原始数据进行质量控制、序列比对、变异检测等数据分析步骤,可以使用软件包括 Guppy、Minimap2、Medaka 等。 需要注意的是,上述流程仅是高通量测序的基本流程,具体操作和代码可能因为实验设计、数据分析需求等因素而有所不同。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值