PacBio三代测序专业术语解读

PacBio三代测序专业术语解读

测序百家 • 2017年3月28日 pm3:57 • 生命科学 • 阅读 844

以下是Pacbio官方的Pacific Biosciences Terminology英文版的中文翻译,仅供参考,如有问题请纠正。

1. 基本技术

  • circular consensus sequencing (CCS) read: 环形一致性序列,这种一致性序列通过对来自单个ZMW中的subreads进行比对产生。注意产生的CCS read不包括或不需要与参考序列比对。产生的CCS reads使用CCS算法需要至少两轮读取来自插入片段的subreads。

 

自动草稿

  • full-pass subread:指的是subread开始于一端的adapter然后在另一端的adapter序列终止。full-pass subread不会从插入序列的中间部位起始或终止。 
  • mapped polymerase read length: 过滤后,可比对至参考基因组序列上的测序reads的长度,Polymerase Read是包含adapters的。
  • mapped subread length: 比对到目标参考序列的subread的长度,其中不含接头序列。

 

自动草稿

  • N50 read length metric: 指的是测序得到的reads中,50%的reads长度长于或等于这个值
  • paired barcodes: 在SMRTbell™ template中插入序列两端的barcode序列均不一致的barcode序列。barcoding分析软件使用独特的barcodes对来区分和分析reads。
  • polymerase read: 即高质量测序reads,包含adaptors以及测多次获得multiple subreads。
  • polymerase read length: 去除低质量区域后一个零模波导孔中产生的总碱基数。其中可能包含接头序列。
  • polymerase read quality: 测序reads中,single-pass read的平均质量值。
  • preassembled long read (PLR): 在HGAP预装配步骤中输出的read。
  • productivity: 对来自一个ZMW的reads的计算。P=1表示来从ZMW产生了一条polymerase read。P=0表示这个ZMW没有产生read,其可能原因是缺少聚合酶。P=2表示其他情况,此测序数据不可用,可能是ZMW中存在多个模板-聚合酶复合物,较高的背景信号等原因。
  • read quality (RQ): 对来自一个零模波导孔的subreads的准确度进行预测。有时也用QC Score或Read Score代替。
  • subread: 每一个polymerase read被分割形成一个或多个subreads,这些subreads包含来自被聚合酶测通的插入片段单条链的序列但不包含接头序列。
  • symmetric barcodes: 在SMRTbell template插入片段两端序列都相同的barcode序列。
  • zero-mode waveguide (ZMW): 即零模波导孔,其为一种用于将光线限制在小的观测体积的纳米光学设备,这是一种具有导电层的小孔。这种小孔由于直径太小而限制光线在用于检测的波长范围内传播。其为SMRT Cell的一部分。
  • MagBead: 小的超顺磁性磁珠,粒径2-3 um,将DNA-聚合酶复合物结合在磁珠上,然后能用于在偶联步骤洗去上清中的污染物。DNA-聚合酶/磁珠复合物能被用于仪器固定步骤。
  • SMRT® Cells: 由零模波导孔纳米结构阵列组成的基底。SMRT Cells连同DNA Sequencing Kit一起用于仪器的DNA测序。

 2. 模板制备

  • barcode padding: 一段可选的连于特定的barcode序列上的五碱基对恒定序列。能被用于在模板制备时标准化adapter的连接。
  • barcoded adapter: 在发夹结构区域末端连有barcode序列的SMRTbell接头序列。当使用barcoded adapters,SMRTbell模板将有一段对称的barcode结构。
  • barcoded SMRTbell™ template: 带有两个barcoded adapters的SMRTbell模板。
  • diffusion loading: 通过扩散的方式将DNA-聚合酶复合物固定到SMRT Cell中的零模波导孔中。更小的插入片段与更大的插入片段相比会优先进入零模波导孔。
  • DNA damage repair: DNA损伤修复,这是在SMRTbell模板制备中的一步,用于修复各种类型的DNA损伤,包括嘧啶二聚体、无碱基位点和切口。
  • DNA end repair: DNA末端修复。这是在模板制备中的一步,用于移除5’端和3’端多出来的序列,并使5’末端磷酰化。
  • DNA fragmentation: 产生更小的DNA片段。多种方法可以用于片段化DNA,包括机械剪切,超声和酶切等。
  • input DNA: 用于DNA模板制备的纯化的DNA。
  • insert size: 在SMRTbell模板中双链核苷酸片段的长度,不包括发夹结构的接头序列。
  • MagBead loading: 通过磁珠将大分子的DNA固定在零模波导孔的底部。过小的插入片段,接头二聚体和过量的聚合酶会在磁珠结合和洗涤的步骤中被洗脱。与扩散的固定方式相比,该方法能使中等大小和更大的插入片段会被更好的固定在零模波导孔上并且拥有更高的测序准确度。
  • polymerase binding: 测序聚合酶结合在核酸模板合适的结合位点上。
  • primed template: 指的是结合了退火后引物的模板分子。
  • primer annealing: 测序引物和模板合适结合位点的杂交。
  • size selection: 片段选择,从不同长度的序列混合物中去除不想要的片段。其可以代表仅移除最小的片段,例如接头二聚体;或者分离出非常窄范围的插入片段。依据我们感兴趣的片段范围和可用的仪器设备,可采用AMPure PB beads,人工胶回收,自动胶分离或者使用BluePippinTM或SageELFTM片段选择系统。
  • SMRTbell™ template: 两端连有发夹状接头的双链DNA模板。SMRTbell模板为哑铃型,通过DNA Template Prep Kit制备而成。

 

自动草稿

  • template-polymerase complex:连有引物的模板结合上聚合酶;由DNA/Polymerase Binding Kit制备而成。

 

3.  基本软件

  • PacBio® DevNet (http://www.pacb.com/products-and-services/analytical-oftware/devnet/): 为信息学研究人员和生命科学家提供包括数据集、源代码、应用程序编程接口和文档等资源。
  • SMRT® Link: 针对Sequel系统开发的基于网页的端对端工作流程管理。它包括用于构建样品,监控测序过程,分析和管理测序数据的软件应用。

– Data Management: SMRT Link的软件模块用于创建项目和数据集以及管理项目和使用者的访问权限。

– SMRT® Analysis: SMRT Link软件模块用于执行数据的二级分析包括序列比对,变异检测,de novo组装,RNA分析和检测DNA表观修饰。

  • SMRT® View: 基于Java的基因组浏览器用于可视化比对或组装reads。部分SMRT分析,其为SMRT分析套件的一部分。

 Sequel系统涉及:

  • Sequel Instrument Control Software (ICS): 其为一套包含控制上机操作,用户界面和初级分析的仪器功能控制软件。
  • Run Design: 其为SMRT Link软件模块,可为用户提供一个简单的工作流程。
  • Run QC: 其为SMRT Link软件模块,用于帮助用户实时监控仪器运行情况。
  • Sample Setup: 其为SMRT Link软件模块,用于Sequel系统DNA样品制备过程中结合和退火反应的样本使用量计算。

PacBio RS II系统涉及:

  • Binding Calculator: 这是一种基于网页的应用,用于PacBio RS II系统DNA样品制备过程中结合和退火反应的样本使用量计算。
  • RS Dashboard: 这是一种基于网页的应用,能让用户在桌面上进行运行监控和运行后评估,RS Dashboard能给出的重要的运行指标包括运行参数,读长,质量评估,数据通量等。
  • RS Remote: 这是一种基于Windows客户端的软件,用于设计和监控测序运行。用户可通过RS Dashboard查看初级分析数据。
  • RS Touch: RS Touch拥有整合在RS II上的触摸屏界面,能够让用户有效的管理测序运行过程。
  • SMRT™ Pipe: SMRT分析套件的命令行界面,SMRT Pipe用于执行二级分析工作。
  • SMRT™ Portal: 其为基于网页的软件,用于帮助建立二级分析和查看质量报告。其为SMRT分析套件的一部分。

4. 初级分析

  • high-quality (HQ) region: 在对原始数据处理时对read上的高质量序列区域进行注释。
  • movie time: 特指从SMRT Cell获取测序数据的时间。
  • primary analysis: 指的是包含测序时的信号处理,碱基识别,碱基识别的质量评估,裁剪原始数据为高质量区域,识别adapter,barcode(可选),控制测序reads,比对read得分及以BAM格式输出subread数据等分析内容。
  • QV Metric: 类似于Phred的评分用以反映每个碱基正确读取的可能性。
  • raw read trimming: 将原始序列中的一部分去除,例如去除低质量的区域。裁剪一个未经过滤的read会产生polymerase read。
  • reads/SMRT® Cell: 每个SMRT Cell产生的reads数目。

5. 二级分析

  • Arrow: (Note: This replaces Quiver.) 一种高精准度的一致性序列和变异检出工具,利用该工具能产生大于99.999%的精准一致性序列。其为SMRT Analysis的一部分。
  • BLASR: 用于靶向测序。用于将reads比对到参考序列上。其为SMRT Analysis的一部分。
  • consensus accuracy: 基于将多条测序reads或subreads一起比对获得的精准性。
  • circular consensus accuracy: 基于多条通过单一环形模板分子测序获得的一致性序列的精准性。
  • circular consensus sequence analysis: 将环形一致性序列产生的测序数据处理产生一个环形一致性read的过程。
  • circular consensus sequencing (CCS): 测序在一个环形的模板上进行,当测序每测通一次模板会产生一个subread。这些reads相互之间比对会产生一个高精度一致性序列。进行环形一致性序列分析产生环形一致性reads至少需要产生两轮subreads。
  • HGAP: HGAP是一种利用PacBio数据产生高质量的de novo组装结果的软件。HGAP包括前组装,de novo组装和组装修正步骤。HGAP3利用AseembleUnitig模块用于de novo装配,Quiver用于组装矫正。HGAP4利用Falcon进行de novo装配,Arrow用于组装矫正。

 

自动草稿

  • Quiver: 一种高精准度的一致性序列和变异检出工具,利用该工具能产生大于99.999%的精准一致性序列。其为SMRT Analysis的一部分。
  • secondary analysis application: 二级分析流程可能包含多个分析步骤。分析的应用包括de novo组装,重测序,RNA和表观分析。
  • tertiary analysis: 在二级分析后进行的分析,包括对不同样品二级分析结果间的比较,特定应用的分析,变异分类和疾病相关基因的注释等。

6. 碱基修饰

  • amplified control: 这是通过对感兴趣样本进行扩增后单独测序构建的对照。
  • interpulse duration (IPD): 脉冲间隔时间,指的是显示碱基插入事件的发射脉冲间的时间间隔。模板分子的碱基修饰能影响脉冲间隔时间,所以脉冲间隔时间的改变能被用于检测SMRT测序过程中的碱基修饰。
  • IPD Ratio: IPD比率。指的是在模板中探究位置处,一个自然样本的平均IPD值与第二个样本或是与in silico control的平均IPD值之间的比值。
  • in silico control: 指计算模型预测的所检测序列的平均IPD。

 7. 仪器术语

仅适用于PacBio RS II系统:

  • Blade Center: 包含用于处理初级分析和控制仪器的计算机平台。
  • carrier plate: 这是一种有12个插槽的金属板用以容纳装有8个SMRT Cell的长条。
  • drawer: 用于存放耗材的抽屉,抽屉左右两边间隔开,左边的抽屉存放试剂和样本,右边的抽屉存放SMRT Cells和枪头。
  • Environmental Cabinet: 仪器最右侧的隔间,包含氮引入口和制冷机次模组。
  • tip station: SMRT Cell和枪头抽屉中的区域,用于容纳最多6盒移液器枪头。
  • 5
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 要用三代测序数据组装出染色体级别的基因组,可以按照以下步骤进行: 1. 数据预处理:对三代测序数据进行质量控制和过滤,去除低质量和含有适配器的reads。 2. 组装:使用基因组组装软件对经过预处理的数据进行组装。由于三代测序数据具有较长的read长度和较高的错误率,因此需要使用适合处理这种数据的组装算法,如Flye、Canu、wtdbg2等。 3. 内部一致性校正:对组装结果进行内部一致性校正,去除矛盾的序列,提高组装准确性。 4. 粘连区域处理:在染色体级别组装过程中,常常会出现粘连区域,即存在多个不同的序列可以组装在一起。可以使用长读比对、Hi-C数据等方法进行粘连区域的处理,得到最终的染色体级别组装结果。 5. 评估和改进:对组装结果进行评估和改进,比较组装结果和已知参考基因组的差异,并使用其他数据如RNA-seq数据进行验证和改进。 以上是组装染色体级别基因组的一般步骤,具体实施中还需要结合具体的数据情况和组装软件的特点进行调整和优化。 ### 回答2: 染色体级别的基因组组装需要经过以下几个步骤: 1. 数据质控:首先对三代测序数据进行质控,包括去除低质量碱基、修剪末端序列、去除接头序列等处理,确保数据的准确性和完整性。 2. 参考基因组比对:使用相关物种的参考基因组作为参考,将测序reads与参考基因组进行比对。此步骤可使用一些开源的比对工具,如Bowtie、BWA等。 3. 去重和拼接:根据比对结果,对重复的读取进行去重,然后将比对上的reads进行拼接,生成更长的序列。常用的拼接工具有SPAdes、SOAPdenovo等。 4. 错误矫正:对拼接得到的长序列进行错误矫正,去除可能存在的测序错误。可使用Quiver、LoRDEC等工具进行错误矫正。 5. 碱基错误矫正:使用相关物种的其他基因组信息,如原核生物的拓扑结构、转录本序列等,进行碱基错误矫正,提高结果的准确性。可使用Pilon、Racon等工具进行碱基错误矫正。 6. 持续迭代:以上步骤可能需要多次迭代进行,直至获得较完整且准确的染色体级别基因组。 7. 结果评估:通过与已知基因组的比对、基因预测和注释等方式对组装结果进行评估,验证基因组的准确性和完整性。 总之,染色体级别基因组组装利用三代测序数据,通过质控、比对、拼接、错误矫正等多个步骤,最终得到较完整、准确的基因组序列。然而,组装结果仍需综合其他实验验证,才能确保基因组的完整性和准确性。 ### 回答3: 要组装一个染色体级别的基因组,首先需要收集足够的三代测序数据。三代测序技术包括Illumina,PacBio和Nanopore等,它们提供了高质量、长读长的测序数据。 第一步是建立一个参考基因组序列。可以使用辅助测序技术,如BioNano或Hi-C,来获得染色体的全长信息。这些信息将帮助将测序数据映射到参考基因组上。 接下来,将三代测序数据与参考序列进行比对。根据每个数据集之间的重叠区域,可以通过重叠改正和序列拼接方法将读取连接起来。通过比对多个数据集,可以提高准确性并填充序列间的空隙。 然后,进行读取错误矫正。三代测序技术由于其相对较高的错误率,可能需要采取矫正措施。可以使用PacBio和Nanopore提供的高质量排序读取来矫正Illumina数据集中的错误。 在得到组装的序列后,需要通过重叠区域检测和破碎区域映射来验证和填充序列。通过比对之前得到的长读取和映射的链接信息,可以检测到重叠和破碎区域,并进行修复和连接。 最后,继续进行序列校准和错误修复。可以使用基于概率的方法,如polish read or consensus correction,来矫正残留的序列错误。 通过这些步骤,我们可以逐渐组装出一个染色体级别的基因组。但需要明确的是,基因组组装是一个复杂的过程,可能涉及到很多细节和步骤。因此,在实际实施中,可能需要借助各种基因组组装软件和技术来完成任务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值