生物信息学
生物信息学——三代测序数据:Pacbio
文章目录
- 最近收到一批数据下面有两个文件夹,“NGS”和“Pacbio”,NGS,Next-generation sequencing,也就是平时说的二代测序技术,那Pacbio是什么?三代测序技术嘛?一查还真是三代测序的下机数据,Pacbio是公司名,其开发了Hifi这一三代测序技术。
- Pacbio文件夹下,主要有三类文件,bam 文件,bam.pbi 文件,以及xml文件。
一、PacBio HiFi 测序
PacBio HiFi 测序,这是一种长读长测序技术,
1.1、背景介绍
受限于技术力问题,面对基因组长达数百万乃至数十亿个碱基,目前很难对完整的基因组进行测序。于是研究人员尝试利用小片段重构基因组序列信息。根据不同的测序仪,将基因组碎片化为合适的大小,然后才能进行实际的测序、重组和分析。基于它们的底层化学和所分析的DNA片段的长度,测序仪可以分为长读长和短读长两种类型。
-
长读长测序
- 检测长度为1,000到20,000个碱基或更长的DNA(或RNA)片段。
- 无需经过扩增,可以直接对提取后的基因测序。
-
短读长测序
- 多数只能检测50-300个碱基长度的片段。
- 无法有效地对原生分子进行测序,需要对提取的DNA进行扩增。
-
短读长测序的缺陷
- 碎片化,难以正确排序。
- 需要很多的计算资源来实现基因重组。
- 准确性较低,存在空白信息。
长读长技术的优势在于其准确性
1.2、Pacbio HiFi 测序
为了在基因组分析中满足这种对长度和准确性的双重需求,PacBio的科学家们开发了HiFi测序技术。
- HiFi 测序是一种单分子、长读长度的测序技术,能够生成长且准确的读取序列。
- 生成的读取序列长度可达 15,000 到 20,000个碱基或更长,测序准确度可以达到 99.9%。
1.2.1、 PacBio HiFi 测序的原理
HiFi 测序开始时,悬浮在溶液中的样品DNA的环状文库片段涌入被称为SMRT(单分子实时)芯片的纳米微流控芯片表面。这种芯片的表面上覆盖着几百万个纳米级直径的小孔,称为零模波导孔(Zero Mode Waveguide,ZMW),样品流过SMRT测序芯片时,DNA的环状文库被固定在ZMW孔的底部。一旦样品DNA位于ZMW孔内,会加入游离核苷酸,并在库制备过程中附着在样品DNA上的DNA聚合酶并开始复制DNA分子。当聚合酶将新的核苷酸碱基合并到新复制的链中时,会释放出微小的光,并被检测器捕获。根据发射的荧光,测序系统可以确定哪种DNA碱基(A、T、C、G)被合成了。
类似于赛车在环形赛道上重复绕圈,HiFi测序中的DNA聚合酶在样品DNA分子的环状结构周围工作多次。由于聚合酶在ZMW孔中产生了DNA分子的多个副本,因此PacBio长读长测序系统可以通过交叉参照每个分子的副本来准确确定样品DNA的正确序列,从而最大程度地提高准确性,这被称为循环一致性测序(CCS)。
一旦SMRT测序芯片中所有ZMW孔的数据都被编译,就会生成一个主要的数据输出,可供研究人员进行下游分析。
Sequel IIe系统和更新的PacBio长读取测序平台都能测量聚合酶合并每个碱基的速度。然后,研究人员可以通过PacBio SMRT Link软件利用这些信息来确定碱基是否被甲基化,这对于表观遗传学研究非常关键。
1.2.2、 PacBio HiFi 测序的优势
- 长读长
HiFi测序提供15,000-20,000个碱基对或更长的读长。
- 高准确性
通过循环一致性测序,HiFi测序生成99.9%准确性的reads。
- 均一的基因组覆盖率
可以直接对原始样本测序,通过消除PCR扩增所带来的偏差,HiFi测序使研究者能够分析其他技术通常难以获取的基因组区域(如难以测序的AT和GC富含区域、高度重复区域、长同源聚合物和回文序列)。
- 直接甲基化检测
通过直接从样本中提取DNA进行测序而不进行扩增,可以通过测量碱基的插入动力学来检测碱基修饰。这允许在单个实验中捕获序列和甲基化信息,无需额外的预处理步骤。
1.2.3、 PacBio HiFi 测序的应用
- 单倍型分型
在寻找有利的作物特征或人类遗传性疾病的基因位点时,要求完全区分每个染色体的拷贝或单倍型(例如母系或父系遗传)之间的差异。
HiFi测序的长距离能力降低了统计复杂性并提高了重建每个染色体拷贝的正确率。
- 变异检测
HiFi测序reads跨越基因组大区域的能力使其能够在基因组范围内检测变异,尤其是针对大范围的插入/删除事件。同样,HiFi reads可以帮助研究人员检测串联重复和其他高度重复序列的区域,这些区域没有长且准确的reads无法正确分析。
- 基因组组装
HiFi数据的长度和准确性确保了单个序列之间足够的重叠,即使在高同源性区域,也能使组装软件(如hifiasm)重建基因组,减少错误和不确定区域的数量。
- 表观遗传学研究
HiFi测序技术的一个优点是能够直接分析样品分子而无需扩增步骤,这使得研究人员可以获取碱基修饰信息(如甲基化)以及传统的碱基识别数据。这为研究人员在人类和其他生物的基因表达遗传性变化方面提供了一系列新的可能性。
此外,由于这些甲基化数据与其他HiFi应用程序同时生成,因此研究人员可以在单倍型分区和变异调用的基因组上准确定位和研究表观遗传效应。在对这种甲基化检测能力的创造性利用中,研究基因治疗的科学家甚至开始使用HiFi甲基化检测技术来识别设计中的断裂和结构缺陷。
二、PacBio HiFi 测序文件
当找fastq格式文件做分析时,忽然发现找不到了。在Pacbio测序技术中,下机数据通常包含bam文件、bam.pbi文件以及xml文件。其中,bam文件用于存储序列信息,其成为了fastq文件的替代者,因为其更节约储存空间,而.bam.pbi文件则起到辅助比对分析的作用,能够使得比对分析过程更快进行。
2.1、 Pacbio 的 BAM 文件格式
- 在二代测序中,我们平常见到的bam文件大多是比对结果文件,例如用重测序分析中BWA生成的bam文件就是reads与基因组的比对文件。但pacbio的下机文件是没有与基因组进行过比对过的,其主要作用就是储存序列。
- Bam文件主要分为两个部分,一部分是Header,储存测序的相关信息,另一部分既文件的主要部分是records,这里头保存了我们的序列信息。
- 例如:
samtools view sample.bam # 命令查看bam文件
第一列:reads信息
{movieName}/{holeNumber}/{qStart}_{qEnd}
[对于CCS:{movieName}/{holeNumber}/ccs]
其中MovieName 是cell的名字,holeNumer是ZMW孔的编号,qStart和qEnd是subreads相对于ZMW reads的位置。
第二列 (sum of flags):比对信息 均为4 代表没有比对上,也表明了bam文件只储存了序列信息,而没有比对信息。
第三列 (RNAM):参考序列 值为 ,代表无参考序列
第四列 (position) : 比对上的第一个碱基位置 0
第五列 (Mapping quality) : 比对质量分数 255
第六列 (CIGAR值) : 比对的具体情况
第七列 (MRNM) : mate 对应的染色体
第八列 (mate position) : mate对应的位置 0
第九列 (ISIZE, Inferred fragment size) : 推断的插入片段大小 0
第十列 (Sequence) : 序列信息 具体的ATCG
第十一列 (ASCII码) : 碱基质量分数 ASCII+33
第十二列 : 可选区域 记录Reads 的总体属性包括信号长度,信号强度等信息。
2.2、 Pacbio 的 bam.pbi 文件格式
bam.pbi是bam文件的索引文件,能够提供bam文件中序列的快速访问和定位功能,从而加速比对、组装等后续分析过程。
- 主要作用:
- 快速访问
- 参考序列,基因组区域
- read 组别
- qurey name
- ZMW
- barcode
- 其他
- 在无需完全访问BAM文件的情况下,获取信息
- 获取统计信息
- 通过提供index访问记录信息
2.3、 Pacbio 的 XML 文件
Pacbio的XML文件是记录测序过程中每个ZMW度量指标的统计文件。这些度量指标包括但不限于测序质量、信号强度、测序长度等关键信息。
-
利用XML文件,可以辅助数据分析
- 质量控制:通过分析XML文件中的测序质量信息,研究人员可以对测序数据进行质量控制,识别并剔除低质量的测序数据,从而提高数据分析的准确性和可靠性。
- 优化测序条件:研究人员还可以根据XML文件中的信息,对测序条件进行优化,如调整测序酶的活性、改进文库构建方法等,以提高测序数据的整体质量和产量。
-
参考
- https://pacbio.cn/blog/sequencing-101-long-read-sequencing/
- https://www.cnblogs.com/jinhh/p/8328818.html#:~:text=BAM.pbi%20%E6%96%87%E4%BB%B6%20%E6%98%AFbam%E6%96%87%E4%BB%B6%E7%9A%84%E7%B4%A2%E5%BC%95%E6%96%87%E4%BB%B6%20%28PacBio,BAM%20index%29%EF%BC%8C%E4%B8%8E%E4%B8%8A%E4%B8%80%E4%B8%AA%E7%89%88%E6%9C%AC%EF%BC%88RS%20II%EF%BC%89%E7%9A%84%2Acmp.h5%E6%96%87%E4%BB%B6%E5%85%BC%E5%AE%B9%EF%BC%8C%E5%85%B6%E6%A0%BC%E5%BC%8F%E7%B1%BB%E4%BC%BC%E4%BA%8EHDF5%EF%BC%8C%20%E9%80%9A%E8%BF%87BGZF%E6%A0%BC%E5%BC%8F%E5%8E%8B%E7%BC%A9%E3%80%82