HiFi测序(High-Fidelity Sequencing)是一种由PacBio公司开发的先进DNA测序技术,基于其单分子实时测序(SMRT, Single Molecule Real-Time Sequencing)平台。HiFi测序结合了长读长和高准确性的优势,已成为基因组学、医学研究、农业育种等领域的重要工具。
以下是HiFi测序的介绍:
技术原理
-
单分子实时测序(SMRT)
-
PacBio测序仪使用SMRT芯片(ZMW芯片)进行测序。每个孔(ZMW,Zero-Mode Waveguide)中包含一个DNA分子和一个聚合酶。
-
荧光标记的核苷酸会在被聚合酶加入DNA链时发出特定颜色的荧光,摄像头实时记录下每种核苷酸的加入过程。
-
-
环状模板(CCS, Circular Consensus Sequencing)
-
HiFi测序利用一种称为“环状一致性序列”(CCS)的技术。目标DNA通过发夹结构连接形成环状,使得同一分子可以被反复测序。
-
通过对一个DNA分子多次测序,生成高质量的共识序列,从而显著提高了测序准确性。
-
主要特点
-
长读长(Read Length)
-
HiFi测序平均读长可达到15-25 kb以上,比传统短读长测序技术(如Illumina)更长。
-
适合解决复杂基因组区域(如重复序列和结构变异)的解析。
-
-
高准确性
-
HiFi读长的准确性可达99.9%以上(Q30),接近短读长技术的水平。
-
这通过重复读取相同的DNA片段并生成共识序列实现。
-
-
低错误率
-
HiFi测序的错误主要为随机错误,通过CCS算法可以有效校正,大幅减少系统性错误。
-
-
无PCR偏好性
-
HiFi测序通常不需要PCR扩增,避免了PCR引入的偏差和错误,能够更好地反映样本的真实状态。
-
优点
-
精准检测复杂变异
-
长读长和高准确性使HiFi测序能够准确解析重复区域、大片段插入/缺失(Indels)和结构变异。
-
在单倍型分辨和基因组组装中表现优异。
-
-
全面表征基因组
-
能同时捕获点突变、表观遗传修饰(如甲基化)、可变剪切等多层次信息。
-
-
适用多样样本
-
包括人类、植物、动物、微生物等样本,尤其是复杂或高重复性的基因组。
-
-
简化的分析流程
-
高准确率降低了对复杂后续分析的需求。
-
局限性
-
成本较高
-
虽然HiFi测序精度高,但测序仪器及运行成本仍较昂贵,不适合预算有限的研究。
-
-
通量相对较低
-
相比于Illumina短读长技术,HiFi测序的通量较低,可能不适合大规模样本的高通量需求。
-
-
数据处理需求高
-
由于生成的数据量大,需要高性能计算资源来处理和分析。
-
应用领域
-
基因组组装
-
尤其适用于高重复或多倍体基因组的精准组装,如植物基因组和癌症基因组。
-
-
变异检测
-
包括单核苷酸变异(SNV)、插入缺失(Indel)、结构变异(SV)。
-
-
单倍型分析
-
凭借长读长能力,HiFi测序可以准确分离单倍型,应用于遗传研究和药物研发。
-
-
表观遗传学
-
能够直接检测DNA甲基化等表观遗传修饰,无需额外试剂处理。
-
-
医学研究
-
包括癌症研究、罕见病研究以及精准医学。
-
-
微生物多样性
-
在微生物组学研究中用于全长16S rRNA基因分析,解析微生物种群结构。
-
发展趋势
随着测序技术的快速发展,HiFi测序正朝着更高通量、更低成本、更简化操作的方向发展。新一代HiFi测序仪(如Revio)将进一步推动这项技术在研究和临床中的广泛应用。
HiFi测序数据分析流程涉及多个步骤,从原始数据的处理到最终的生物学解读。以下是一个分析代码流程示例,基于常用工具和方法:
1. 原始数据准备
HiFi测序生成的原始数据通常是 .bam
格式文件(Subreads BAM),包含测序读数及其质量信息。
主要任务: 从Subreads BAM文件生成环状一致性序列(CCS,Circular Consensus Sequencing)。
# 使用pbccs工具生成CCS读数
pbccs input.subreads.bam output.ccs.bam --minPasses 3 --minPredictedAccuracy 0.99
参数说明:
-
--minPasses
: 最少循环次数,确保足够高质量。 -
--minPredictedAccuracy
: 最低预测准确率(推荐≥0.99)。
2. 数据质量评估
检查CCS数据的质量,包括读长分布和质量分数。
# 使用Bamtools统计基本信息
bamtools stats -in output.ccs.bam
# 使用Python脚本绘制读长分布
samtools view output.ccs.bam | awk '{print length($10)}' > read_lengths.txt
# 可视化(Python示例)
import matplotlib.pyplot as plt
# 读取数据
with open("read_lengths.txt") as f:
lengths = [int(line.strip()) for line in f]
# 绘制直方图
plt.hist(lengths, bins=50, color='skyblue', edgecolor='black')
plt.xlabel("Read Length (bp)")
plt.ylabel("Frequency")
plt.title("HiFi CCS Read Length Distribution")
plt.show()
3. 基因组组装
HiFi测序适用于高质量基因组组装,常用工具包括HiCanu、Flye 和 Hifiasm。
示例:使用Hifiasm进行组装
hifiasm -o output -t 16 input.ccs.bam
参数说明:
-
-o
: 输出前缀。 -
-t
: 使用的CPU线程数。
Hifiasm生成以下文件:
-
.p_ctg.fa
: 主连锁图(Primary Contigs)。 -
.a_ctg.fa
: 辅连锁图(Alternate Contigs)。
4. 基因组校正
对组装的基因组进行错误校正,提高准确性。使用工具如Pilon或Arrow。
示例:使用Arrow校正
arrow output.ctg.bam -r assembled_genome.fasta -o polished_genome.fasta
5. 变异检测
高质量的HiFi读长适合用于变异检测,包括点突变(SNV)、插入/缺失(Indel)和结构变异(SV)。
示例:使用DeepVariant检测变异
# 转换BAM为FASTQ
samtools fastq output.ccs.bam > reads.fastq
# 使用DeepVariant进行变异检测
run_deepvariant \
--model_type=WGS \
--ref=reference_genome.fasta \
--reads=reads.fastq \
--output_vcf=variants.vcf \
--output_gvcf=variants.g.vcf
6. 结构变异检测
对于结构变异检测(SV),推荐使用pbsv或Sniffles。
示例:使用pbsv检测SV
# 构建参考索引
pbmm2 index reference_genome.fasta reference_genome.mmi
# 比对HiFi读长到参考基因组
pbmm2 align reference_genome.mmi output.ccs.bam aligned.bam --sort --preset CCS
# 检测结构变异
pbsv discover aligned.bam svs.svsig
pbsv call reference_genome.fasta svs.svsig svs.vcf
7. 表观遗传修饰检测
HiFi数据能直接检测DNA甲基化等表观遗传修饰。
示例:使用PacBio的SMRT Link分析甲基化
# 提取甲基化信号
smrtlink analysis-modifications \
--input aligned.bam \
--reference reference_genome.fasta \
--output modifications.csv
8. 可视化结果
使用专用工具查看变异和组装结果。
示例:查看变异和组装
# 使用samtools索引BAM文件
samtools index aligned.bam
9. 数据注释
对变异数据进行功能注释,使用工具如ANNOVAR或SnpEff。
示例:使用SnpEff注释变异
java -Xmx4g -jar snpEff.jar GRCh38.99 variants.vcf > annotated_variants.vcf
总结
以上流程涵盖了HiFi测序数据分析的关键步骤,可根据具体需求调整工具和参数。完整工作流程如下:
-
数据生成与质控:
pbccs
、bamtools
。 -
组装与校正:
hifiasm
、arrow
。 -
变异检测:
DeepVariant
、pbsv
。 -
表观遗传修饰:
smrtlink
。 -
注释:
SnpEff
。
生信大白记第39记,就到这里,关注我!
下一记,持续更新学习生物信息学的内容!
生信大白记邮箱账号:shengxindabaiji@163.com
生信大白记简书账号:生信大白记
生信大白记CSDN账号:生信大白记
生信大白记微信公众号:生信大白记
加入生信大白记交流群938339543